蜘蛛最簡(jiǎn)單的爬行策略有3種

2014-03-28    分類: 網(wǎng)站建設(shè)

整個(gè)互聯(lián)網(wǎng)站點(diǎn)都是由鏈接組成的,也就是說(shuō),搜索引擎蜘蛛從任何頁(yè)面最終都會(huì)爬行所有頁(yè)面。

當(dāng)然,網(wǎng)站和網(wǎng)頁(yè)的鏈接結(jié)構(gòu)太復(fù)雜,所以蜘蛛只能用一定的方法來(lái)抓取所有的網(wǎng)頁(yè),據(jù)民間SEO高手了解最簡(jiǎn)單的爬行策略有三種:

1 好優(yōu)先

好優(yōu)先搜索策略根據(jù)特定的網(wǎng)頁(yè)分析算法預(yù)測(cè)候選URL和目標(biāo)頁(yè)面之間的相似度或與主題的相關(guān)性,并選擇一個(gè)或幾個(gè)評(píng)價(jià)好的URL進(jìn)行爬取。它只訪問(wèn)通過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)有用的網(wǎng)頁(yè)。

存在的問(wèn)題是,爬蟲(chóng)抓取路徑上的許多相關(guān)頁(yè)面可能被忽略,因?yàn)樽顑?yōu)優(yōu)先級(jí)策略是局部最優(yōu)搜索算法,所以需要將最優(yōu)優(yōu)先級(jí)與特定應(yīng)用結(jié)合起來(lái)加以改進(jìn),以便跳出局部最優(yōu)點(diǎn)。通過(guò)對(duì)SEO優(yōu)化網(wǎng)絡(luò)的研究,可以實(shí)現(xiàn)這種閉環(huán)調(diào)整,使無(wú)關(guān)網(wǎng)頁(yè)數(shù)量減少30%~90%。

2 深度優(yōu)先

深度首先指的是蜘蛛沿著發(fā)現(xiàn)的鏈接爬行,直到前面沒(méi)有其他鏈接,然后返回到第一頁(yè),沿著另一個(gè)鏈接,然后直線爬行。

3 廣度優(yōu)先

Width-first是指蜘蛛發(fā)現(xiàn)頁(yè)面中有多個(gè)鏈接,不是直接沿著鏈接向前,而是沿著頁(yè)面上的所有鏈接爬行,然后沿著鏈接中找到的第二層鏈接爬向頁(yè)面的第三層。

從理論上講,無(wú)論是深度優(yōu)先還是廣度優(yōu)先,蜘蛛可以在足夠長(zhǎng)的時(shí)間內(nèi)爬過(guò)整個(gè)互聯(lián)網(wǎng)。

在實(shí)踐中,蜘蛛的帶寬資源、時(shí)間不是無(wú)限的,也不能爬行所有的頁(yè)面,事實(shí)上,大的搜索引擎只是爬行和收錄了互聯(lián)網(wǎng)的一小部分,當(dāng)然,并不是蜘蛛爬取的越多越好。

網(wǎng)頁(yè)標(biāo)題:蜘蛛最簡(jiǎn)單的爬行策略有3種
網(wǎng)站地址:http://www.bm7419.com/news/6867.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站排名、網(wǎng)站設(shè)計(jì)公司、外貿(mào)建站、虛擬主機(jī)Google

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)