亚洲福利在线视频_亚洲国产欧美在线人成_人妻a∨中文字幕_人妻a∨中文字幕

采集范圍。網頁檔案的采集有不同的采集策略，不同的采集策略決定了不同的采集范圍，可分為完整型采集、選擇型采集以及混合型采集。

完整型采集是對特定網域的全域進行自動化采集，采集范圍廣、內容多。美國的IA宗旨是保存互聯(lián)網的全面記錄，對全球公開的網站進行定期采集。每兩個月，網站頁面快照都會被互聯(lián)網存檔，自IA項目啟動以來，互聯(lián)網存檔已經存儲了2730億個網頁。

選擇型采集是有針對性地捕獲特定的網站，通常是根據事件、主題進行選擇采集，采集范圍小，需要借助人力。例如，澳大利亞的PANDORA項目只采集與澳大利亞相關，且具有文化意義的網站；美國國會圖書館的Library of Congress Web Archives（以下簡稱LCWA）項目，重點采集與國家利益主題相關的網頁資源，包括美國選舉、伊拉克戰(zhàn)爭和911事件；蘇格蘭的NRS網頁檔案項目，事先制定指南，根據指南采集其范圍內組織創(chuàng)建和擁有的網站，包括蘇格蘭政府、蘇格蘭議會、蘇格蘭法院等。
混合型采集是將兩種策略相結合，先大范圍地對網站進行完整采集，再有重點地針對某些特定的網站進行深度、頻繁的選擇性采集。英國的UKWA項目，首先爬網內容是在英國發(fā)布的網站，如那些在英國頂級域名上的網站.uk、.cymru和.scot，以及可以手動識別出在英國發(fā)布的網站，再由工作人員定期關注、收集有關特定事件、主題或興趣領域的網站。

本文地址：http://www.khwajamoinuddinchishty.com//article/21662.html

分享到：QQ空間新浪微博騰訊微博人人網微信開心網百度貼吧豆瓣網

偷偷鲁视频成人免费视频_丁香五月缴情伊人_欧美精品一区二区久久不卡_亚洲手机在线观看看片

行業(yè)動態(tài)采集范圍