行業(yè)動(dòng)態(tài)采集范圍

2022-04-30    分類: 網(wǎng)站建設(shè)

網(wǎng)頁檔案的采集有不同的采集策略,不同的采集策略決定了不同的采集范圍,可分為完整型采集、選擇型采集以及混合型采集。

完整型采集是對特定網(wǎng)域的全域進(jìn)行自動(dòng)化采集,采集范圍廣、內(nèi)容多。美國的IA宗旨是保存互聯(lián)網(wǎng)的全面記錄,對全球公開的網(wǎng)站進(jìn)行定期采集。每兩個(gè)月,網(wǎng)站頁面快照都會被互聯(lián)網(wǎng)存檔,自IA項(xiàng)目啟動(dòng)以來,互聯(lián)網(wǎng)存檔已經(jīng)存儲了2730億個(gè)網(wǎng)頁。

選擇型采集是有針對性地捕獲特定的網(wǎng)站,通常是根據(jù)事件、主題進(jìn)行選擇采集,采集范圍小,需要借助人力。例如,澳大利亞的PANDORA項(xiàng)目只采集與澳大利亞相關(guān),且具有文化意義的網(wǎng)站;美國國會圖書館的Library of Congress Web Archives(以下簡稱LCWA)項(xiàng)目,重點(diǎn)采集與國家利益主題相關(guān)的網(wǎng)頁資源,包括美國選舉、伊拉克戰(zhàn)爭和911事件;蘇格蘭的NRS網(wǎng)頁檔案項(xiàng)目,事先制定指南,根據(jù)指南采集其范圍內(nèi)組織創(chuàng)建和擁有的網(wǎng)站,包括蘇格蘭政府、蘇格蘭議會、蘇格蘭法院等。
混合型采集是將兩種策略相結(jié)合,先大范圍地對網(wǎng)站進(jìn)行完整采集,再有重點(diǎn)地針對某些特定的網(wǎng)站進(jìn)行深度、頻繁的選擇性采集。英國的UKWA項(xiàng)目,首先爬網(wǎng)內(nèi)容是在英國發(fā)布的網(wǎng)站,如那些在英國頂級域名上的網(wǎng)站.uk、.cymru和.scot,以及可以手動(dòng)識別出在英國發(fā)布的網(wǎng)站,再由工作人員定期關(guān)注、收集有關(guān)特定事件、主題或興趣領(lǐng)域的網(wǎng)站。

標(biāo)題名稱:行業(yè)動(dòng)態(tài)采集范圍
網(wǎng)頁鏈接:http://bm7419.com/news/147573.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)自適應(yīng)網(wǎng)站、網(wǎng)站排名、建站公司、響應(yīng)式網(wǎng)站、品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司