搜索引擎蜘蛛爬行規(guī)律探秘(一)蜘蛛如何抓取鏈接

2021-10-23 分類：網(wǎng)站建設

搜索引擎蜘蛛，對于我們來說非常神秘，本文的配圖使用蜘蛛俠的原因就在于此。當然我們也不是百度的也不是Google的，所以只能說探秘，而不是揭秘。本文內(nèi)容比較簡單，只是給不知道的朋友一個分享的途徑，高手和牛人請繞行吧。

傳統(tǒng)意義上，我們感覺搜索引擎蜘蛛(spider)爬行，應該類似于真正的蜘蛛在蜘蛛網(wǎng)上爬行。也就是比如百度蜘蛛找到一個鏈接，順著這個鏈接爬行到一個頁面，然后再順著這個頁面里面的鏈接繼續(xù)爬……這個類似于蜘蛛網(wǎng)，也類似于一棵大樹。這個理論雖然正確，但是不準確。

搜索引擎內(nèi)部是有一個網(wǎng)址索引庫的，所以搜索引擎蜘蛛是從搜索引擎的服務器出發(fā)，順著搜索引擎已有的網(wǎng)址爬行一個網(wǎng)頁，并將網(wǎng)頁內(nèi)容抓取回來。頁面采集回來之后，搜索引擎會對其進行分析，將內(nèi)容和鏈接分開，內(nèi)容暫時先不說。分析出來鏈接之后，搜索引擎并不會馬上去派蜘蛛進行抓取，而是把鏈接和錨文本記錄下來交給網(wǎng)址索引庫進行分析、對比和計算，最后放入網(wǎng)址索引庫。進入了網(wǎng)址索引庫之后，才會有蜘蛛去抓取。

也就是如果出現(xiàn)了某個網(wǎng)頁的外鏈，并不一定會立刻有蜘蛛去抓取這個頁面，而是會有一個分析計算的過程。即便是這個外鏈在蜘蛛抓取之后被刪除了，這個鏈接也有可能已經(jīng)被搜索引擎記錄，以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面，發(fā)現(xiàn)鏈接不存在了，或者外鏈所在頁面出現(xiàn)了404，那么只是減少了這個外鏈的權(quán)重，應該不會去網(wǎng)址索引庫刪除這個鏈接。

所以說已經(jīng)不存在的頁面上的鏈接，也有作用。今天就分享這些，以后繼續(xù)跟大家分享我自己分析的內(nèi)容，如果有不準確的地方，請大家批評指正。

當前文章：搜索引擎蜘蛛爬行規(guī)律探秘(一)蜘蛛如何抓取鏈接
當前路徑：http://bm7419.com/news/132617.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供ChatGPT、標簽優(yōu)化、品牌網(wǎng)站設計、網(wǎng)站導航、商城網(wǎng)站、關(guān)鍵詞優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

做網(wǎng)站設計比較好的公司 2021-10-23
博客改版添加robots.txt之后帶來的影響 2021-10-23
請謹慎選擇深圳網(wǎng)站制作公司 2021-10-23
網(wǎng)站優(yōu)化結(jié)構(gòu)布局的怎么把握 2021-10-23
建設網(wǎng)站如何經(jīng)得起市場考驗 2021-10-23
如何通常數(shù)據(jù)去了解網(wǎng)站的SEO運營效果 2021-10-23