搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的？

2022-07-17 分類(lèi)：網(wǎng)站建設(shè)

搜索引擎蜘蛛，在搜索引擎系統(tǒng)中又被稱(chēng)之為“蜘蛛”或“機(jī)器人”，是用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序。

今天，小小課堂網(wǎng)為大家?guī)?lái)的是《搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的》教程。希望對(duì)大家有所幫助。

搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的？什么是排名優(yōu)化

一、搜索引擎蜘蛛簡(jiǎn)介

搜索引擎蜘蛛，在搜索引擎系統(tǒng)中又被稱(chēng)之為“蜘蛛”或“機(jī)器人”，是用來(lái)爬行和訪(fǎng)問(wèn)頁(yè)面的程序。

① 爬行原理

搜索引擎蜘蛛訪(fǎng)問(wèn)網(wǎng)頁(yè)的過(guò)程，就好比用戶(hù)使用的瀏覽器。

搜索引擎蜘蛛向頁(yè)面發(fā)出訪(fǎng)問(wèn)請(qǐng)求，該頁(yè)面的服務(wù)器則返回該頁(yè)面的HTML代碼。

搜索引擎蜘蛛將收到的HTML代碼存入搜索引擎的原始頁(yè)面數(shù)據(jù)庫(kù)中。

② 如何爬行

為了提高搜索引擎蜘蛛的工作效率，通常采用多個(gè)蜘蛛并發(fā)分布爬行。

同時(shí)，分布爬行還分為兩種模式：深度優(yōu)先和廣度優(yōu)先。

深度優(yōu)先：沿著發(fā)現(xiàn)的鏈接一直爬行，直到?jīng)]有任何鏈接。

廣度優(yōu)先：先這一頁(yè)面上的所有鏈接爬行完畢之后，才會(huì)沿著第二層頁(yè)面繼續(xù)這樣爬行。

③ 蜘蛛必遵守的協(xié)議

搜索引擎蜘蛛在訪(fǎng)問(wèn)網(wǎng)站之前，都會(huì)先訪(fǎng)問(wèn)網(wǎng)站根目錄下的robots.txt文件。

搜索引擎蜘蛛不會(huì)去抓取robots.txt文件中禁止爬行的文件或目錄。

④ 常見(jiàn)搜索引擎蜘蛛

百度蜘蛛：Baiduspider

谷歌蜘蛛：Googlebot

360蜘蛛：360Spider

SOSO蜘蛛：Sosospider

有道蜘蛛：YoudaoBot，YodaoBot

搜狗蜘蛛：Sogou News Spider

必應(yīng)蜘蛛：bingbot

Alexa蜘蛛：ia_archiver

二、如何吸引更多搜索引擎蜘蛛

互聯(lián)網(wǎng)信息爆炸，搜索引擎蜘蛛不可能將所有網(wǎng)站的所有鏈接全部爬行到，那么如何吸引更多的搜索引擎蜘蛛到我們網(wǎng)站上來(lái)爬行變得非常重要。

① 導(dǎo)入鏈接

無(wú)論是外部鏈接，還是內(nèi)部鏈接，只有有導(dǎo)入，才能被搜索引擎蜘蛛知道該頁(yè)面的存在。所以，多多做外鏈建設(shè)有助于吸引更多蜘蛛來(lái)訪(fǎng)。

② 頁(yè)面更新頻率

頁(yè)面更新頻率越高，搜索引擎蜘蛛來(lái)訪(fǎng)的次數(shù)也會(huì)越多。

③ 網(wǎng)站和頁(yè)面權(quán)重

整個(gè)網(wǎng)站的權(quán)重以及某一頁(yè)面的權(quán)重（包括首頁(yè)也是頁(yè)面）影響著蜘蛛的來(lái)訪(fǎng)頻率，權(quán)重高、權(quán)威性強(qiáng)的網(wǎng)站一般都會(huì)增加搜索引擎蜘蛛的好感。

④ 與首頁(yè)的距離

首頁(yè)>一級(jí)目錄>二級(jí)目錄>三級(jí)目錄>四級(jí)目錄…很顯然，目錄越深蜘蛛來(lái)訪(fǎng)的幾率和次數(shù)就會(huì)越少，因?yàn)橐话阃怄湺际侵赶蚴醉?yè)的，首頁(yè)再向下爬行，只會(huì)越來(lái)越少。

這里給大家的建議是，做外鏈的時(shí)候，不要只做首頁(yè)外鏈，偶爾做一做欄目和聚合頁(yè)面的外鏈也還是不錯(cuò)的哦~

有些時(shí)候，URL短，蜘蛛可能也會(huì)覺(jué)得這個(gè)鏈接的權(quán)重哦，所以，最好只做一級(jí)欄目，然后就是文章頁(yè)面。

三、搜索引擎蜘蛛地址庫(kù)

搜索引擎蜘蛛有一個(gè)專(zhuān)門(mén)的地址庫(kù)，用來(lái)存放已經(jīng)被發(fā)現(xiàn)的URL（已被抓取和未被抓取的都算，只要是被發(fā)現(xiàn)的URL都算），這樣就不會(huì)出現(xiàn)重復(fù)爬行和抓取頁(yè)面的情況了。

① 地址庫(kù)URL來(lái)源

蜘蛛抓取的頁(yè)面中發(fā)現(xiàn)的新的URL；

站長(zhǎng)后臺(tái)自主提交的URL；

站長(zhǎng)后臺(tái)提交的XML地圖中的URL；

站長(zhǎng)后臺(tái)提交的網(wǎng)站URL；

② 對(duì)于未被抓取的URL

對(duì)于未被抓取的URL，不管是以什么方式獲取的，哪怕是搜索引擎蜘蛛自己發(fā)現(xiàn)的，也會(huì)先放入地址庫(kù)中，然后在做統(tǒng)一抓取。

四、頁(yè)面數(shù)據(jù)存儲(chǔ)

搜索引擎蜘蛛將抓取的頁(yè)面數(shù)據(jù)會(huì)存入搜索引擎的原始頁(yè)面數(shù)據(jù)庫(kù)中，其實(shí)，就可以理解為快照中看到的頁(yè)面數(shù)據(jù)，和用戶(hù)看到的是一樣的，每一個(gè)頁(yè)面的URL地址都有一個(gè)的編號(hào)。

五、復(fù)制內(nèi)容檢測(cè)

搜索引擎蜘蛛在爬行的過(guò)程中，會(huì)進(jìn)行一定程度的復(fù)制內(nèi)容檢測(cè)。如果是權(quán)重低的網(wǎng)站上，發(fā)現(xiàn)了大量的轉(zhuǎn)載或抄襲內(nèi)容時(shí)，可能會(huì)停止爬行，這些頁(yè)面可能也會(huì)不抓取與收錄。

但并不是說(shuō)網(wǎng)站就不能轉(zhuǎn)載，像一些權(quán)重很高的平臺(tái)，哪怕是轉(zhuǎn)載了一篇舊聞排名也可以很好，因?yàn)樗阉饕嬷┲肟赡軙?huì)覺(jué)得，就算是舊聞可能也是高質(zhì)量的吧。

以上就是小小課堂網(wǎng)為大家?guī)?lái)的是《搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的》教程。感謝您的觀(guān)看。

喜歡記得，點(diǎn)贊，打賞哦。小小課堂網(wǎng)，每天一個(gè)SEO原創(chuàng)視頻和圖文教程，別忘了關(guān)注哦。

更多seo教程搜索小小課堂。文章來(lái)源：https://www.xxkt.org/sogouseo

本文來(lái)源：A5

網(wǎng)站名稱(chēng)：搜索引擎蜘蛛是如何爬行與抓取頁(yè)面的？
標(biāo)題URL：http://www.bm7419.com/news19/180169.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)網(wǎng)站建設(shè)、微信公眾號(hào)、用戶(hù)體驗(yàn)、網(wǎng)站內(nèi)鏈、域名注冊(cè)、網(wǎng)站導(dǎo)航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話(huà)：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

網(wǎng)站建設(shè)- 提高網(wǎng)站建設(shè)的質(zhì)量的九大技巧 2022-07-17
為什么Dart比JavaScript更酷 2022-07-17
淺談修改網(wǎng)站關(guān)鍵詞是否會(huì)導(dǎo)致網(wǎng)站優(yōu)化排名下降 2022-07-17
成都建站 2022-07-17
怎么做好搜索引擎自然排名？ 2022-07-17