分析百度蜘蛛是如何爬行抓取頁面

2021-11-24 分類：網(wǎng)站建設(shè)

每個(gè)搜索引擎都有一套pagerank(指頁面權(quán)重，非google PR)計(jì)算方法，并且經(jīng)常會(huì)更新?；ヂ?lián)網(wǎng)近乎無窮大，每天都會(huì)產(chǎn)生海量的新鏈接。搜索引擎對于鏈接權(quán)重的計(jì)算只能是非完全遍歷。為什么Google PR要三個(gè)月左右才更新一次為什么百度大更新一個(gè)月1-2兩次這就是因?yàn)樗阉饕娌捎昧朔峭耆闅v鏈接權(quán)重算法來計(jì)算鏈接權(quán)重。其實(shí)按照目前的技術(shù)，實(shí)現(xiàn)更快頻率的權(quán)重更新并不難，計(jì)算速度以及存儲(chǔ)速度完全跟得上，但為什么不去做因?yàn)闆]那么必要，或者已經(jīng)實(shí)現(xiàn)了，但不想公布出來。那，什么是非完全遍歷鏈接權(quán)重計(jì)算我們將K數(shù)量的鏈接形成一個(gè)集合，R代表鏈接所獲得的pagerank，S代表鏈接所包含的鏈接數(shù)量，Q代表是否參與傳遞，β代表阻尼因數(shù)，那么鏈接所獲得的權(quán)重計(jì)算公式為。

從公式里可以發(fā)現(xiàn)，決定鏈接權(quán)重的是Q，如果鏈接被發(fā)現(xiàn)作弊，或者搜索引擎人工清除，或者其他原因，Q被設(shè)為0，那么再多的外鏈都沒用。β是阻尼因數(shù)，主要作用是防止權(quán)重0的出現(xiàn)，導(dǎo)致鏈接無法參與權(quán)重傳遞，以及防止作弊的出現(xiàn)。阻尼因數(shù)β一般為0.85。為什么會(huì)在網(wǎng)站數(shù)量上乘以阻尼因數(shù)因?yàn)橐粋€(gè)頁面內(nèi)并非所有的頁面都參與權(quán)重傳遞，搜索引擎會(huì)將已經(jīng)過濾過的鏈接再度剔除15%。

但這種非完全遍歷權(quán)重計(jì)算需要積累到一定數(shù)量的鏈接后才能再次開始計(jì)算，所以一般更新周期比較慢，無法滿足用戶對即時(shí)信息的需求。所以在此基礎(chǔ)上，出現(xiàn)了實(shí)時(shí)權(quán)重分配抓取策略。即當(dāng)蜘蛛完成抓取頁面并入口后，馬上進(jìn)行權(quán)重分配，將權(quán)重重新分配待抓取鏈接庫，然后蜘蛛根據(jù)權(quán)重高低來進(jìn)行抓取。

我們都知道，大部分網(wǎng)站都是按照樹狀圖來完成頁面分布的，那么在一個(gè)樹狀圖的鏈接結(jié)構(gòu)中，哪些頁面會(huì)被優(yōu)先抓取呢為什么要優(yōu)先抓取這些頁面呢寬度優(yōu)先抓取策略就是按照樹狀圖結(jié)構(gòu)，優(yōu)先抓取同級鏈接，待同級鏈接抓取完成后，再抓取下一級鏈接。大家可以發(fā)現(xiàn)，我在表述的時(shí)候，使用的是鏈接結(jié)構(gòu)而不是網(wǎng)站結(jié)構(gòu)。這里的鏈接結(jié)構(gòu)可以由任何頁面的鏈接構(gòu)成，并不一定是網(wǎng)站內(nèi)部鏈接。這是一種理想化的寬度優(yōu)先抓取策略，在實(shí)際的抓取過程中，不可能想這樣完全寬度優(yōu)先，而是有限寬度優(yōu)先。社會(huì)工程學(xué)策略，就是在蜘蛛抓取的過程中，加入人工智能，或者通過人工智能培訓(xùn)出來的機(jī)器智能，來確定抓取的優(yōu)先度。目前我已知的抓取策略有：

a、熱點(diǎn)優(yōu)先策略：對于爆發(fā)式的熱點(diǎn)關(guān)鍵詞進(jìn)行優(yōu)先抓取，而且不需要經(jīng)過嚴(yán)格的去重和過濾，因?yàn)闀?huì)有新的鏈接來覆蓋以及用戶的主動(dòng)選擇。

b、權(quán)威優(yōu)先策略：搜索引擎會(huì)給每個(gè)網(wǎng)站分配一個(gè)權(quán)威度，通過網(wǎng)站歷史、網(wǎng)站更新等來確定網(wǎng)站的權(quán)威度，優(yōu)先抓取權(quán)威度高的網(wǎng)站鏈接。

c、用戶點(diǎn)擊策略：當(dāng)大部分搜索一個(gè)行業(yè)詞庫內(nèi)的關(guān)鍵詞時(shí)，頻繁的點(diǎn)擊同一個(gè)網(wǎng)站的搜索結(jié)果，那么搜索引擎會(huì)更頻繁的抓取這個(gè)網(wǎng)站。

d、歷史參考策略：對于保持頻繁更新的網(wǎng)站，搜索引擎會(huì)對網(wǎng)站建立更新歷史，根據(jù)更新歷史來預(yù)估未來的更新量以及確定抓取頻率。

網(wǎng)站題目：分析百度蜘蛛是如何爬行抓取頁面
網(wǎng)站地址：http://bm7419.com/news/137347.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站制作、服務(wù)器托管、定制網(wǎng)站、網(wǎng)站策劃、Google、企業(yè)網(wǎng)站制作

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容