分析百度蜘蛛是如何爬行抓取頁面

2021-11-24    分類: 網(wǎng)站建設

每個搜索引擎都有一套pagerank(指頁面權重,非google PR)計算方法,并且經(jīng)常會更新?;ヂ?lián)網(wǎng)近乎無窮大,每天都會產(chǎn)生海量的新鏈接。搜索引擎對于鏈接權重的計算只能是非完全遍歷。為什么Google PR要三個月左右才更新一次為什么百度大更新一個月1-2兩次這就是因為搜索引擎采用了非完全遍歷鏈接權重算法來計算鏈接權重。其實按照目前的技術,實現(xiàn)更快頻率的權重更新并不難,計算速度以及存儲速度完全跟得上,但為什么不去做因為沒那么必要,或者已經(jīng)實現(xiàn)了,但不想公布出來。那,什么是非完全遍歷鏈接權重計算我們將K數(shù)量的鏈接形成一個集合,R代表鏈接所獲得的pagerank,S代表鏈接所包含的鏈接數(shù)量,Q代表是否參與傳遞,β代表阻尼因數(shù),那么鏈接所獲得的權重計算公式為。

從公式 里可以發(fā)現(xiàn),決定鏈接權重的是Q,如果鏈接被發(fā)現(xiàn)作弊,或者搜索引擎人工清除,或者其他原因,Q被設為0,那么再多的外鏈都沒用。β是阻尼因數(shù),主要作用是防止權重0的出現(xiàn),導致鏈接無法參與權重傳遞,以及防止作弊的出現(xiàn)。阻尼因數(shù)β一般為0.85。為什么會在網(wǎng)站數(shù)量上乘以阻尼因數(shù)因為一個頁面內并非所有的頁面都參與權重傳遞,搜索引擎會將已經(jīng)過濾過的鏈接再度剔除15%。

但這種非完全遍歷權重計算需要積累到一定數(shù)量的鏈接后才能再次開始計算,所以一般更新周期比較慢,無法滿足用戶對即時信息的需求。所以在此基礎上,出現(xiàn)了實時權重分配抓取策略。即當蜘蛛完成抓取頁面并入口后,馬上進行權重分配,將權重重新分配待抓取鏈接庫,然后蜘蛛根據(jù)權重高低來進行抓取。

我們都知道,大部分網(wǎng)站都是按照樹狀圖來完成頁面分布的,那么在一個樹狀圖的鏈接結構中,哪些頁面會被優(yōu)先抓取呢為什么要優(yōu)先抓取這些頁面呢寬度優(yōu)先抓取策略就是按照樹狀圖結構,優(yōu)先抓取同級鏈接,待同級鏈接抓取完成后,再抓取下一級鏈接。大家可以發(fā)現(xiàn),我在表述的時候,使用的是鏈接結構而不是網(wǎng)站結構。這里的鏈接結構可以由任何頁面的鏈接構成,并不一定是網(wǎng)站內部鏈接。這是一種理想化的寬度優(yōu)先抓取策略,在實際的抓取過程中,不可能想這樣完全寬度優(yōu)先,而是有限寬度優(yōu)先。社會工程學策略,就是在蜘蛛抓取的過程中,加入人工智能,或者通過人工智能培訓出來的機器智能,來確定抓取的優(yōu)先度。目前我已知的抓取策略有:

a、熱點優(yōu)先策略:對于爆發(fā)式的熱點關鍵詞進行優(yōu)先抓取,而且不需要經(jīng)過嚴格的去重和過濾,因為會有新的鏈接來覆蓋以及用戶的主動選擇。

b、權威優(yōu)先策略:搜索引擎會給每個網(wǎng)站分配一個權威度,通過網(wǎng)站歷史、網(wǎng)站更新等來確定網(wǎng)站的權威度,優(yōu)先抓取權威度高的網(wǎng)站鏈接。

c、用戶點擊策略:當大部分搜索一個行業(yè)詞庫內的關鍵詞時,頻繁的點擊同一個網(wǎng)站的搜索結果,那么搜索引擎會更頻繁的抓取這個網(wǎng)站。

d、歷史參考策略:對于保持頻繁更新的網(wǎng)站,搜索引擎會對網(wǎng)站建立更新歷史,根據(jù)更新歷史來預估未來的更新量以及確定抓取頻率。

文章名稱:分析百度蜘蛛是如何爬行抓取頁面
當前鏈接:http://bm7419.com/news47/137347.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制開發(fā)、品牌網(wǎng)站建設網(wǎng)站設計公司、虛擬主機企業(yè)建站、電子商務

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化