分布式Spider和“降權(quán)蜘蛛”

2020-01-30 分類：網(wǎng)站建設(shè)

由于Spider（搜索引擎蜘蛛）所要抓取的網(wǎng)頁太多，如果只有單一的一個(gè)Spider進(jìn)行抓取作業(yè)，那么將需要非常巨大的計(jì)算能力，同時(shí)也會(huì)消耗更多的抓取時(shí)間。這里就引入了分布式計(jì)算的概念，把龐大的抓取作業(yè)任務(wù)分割成很多較小的部分，使用大量合理計(jì)算能力的服務(wù)器來承載這個(gè)任務(wù)，以完成對全互聯(lián)網(wǎng)網(wǎng)頁的快速抓取。現(xiàn)在大型搜索引擎都會(huì)使用分布式計(jì)算，同樣Spider也會(huì)使用分布式計(jì)算，可以稱這種Spider為分布式Spider,它遵循了分布式計(jì)算的主要規(guī)則，根據(jù)這些規(guī)則也可以解釋現(xiàn)在站長和SEO人員關(guān)心的“降權(quán)蜘蛛”問題。

分布式計(jì)算有很多種計(jì)算方式，這里簡單介紹Spider應(yīng)有的分布式抓取策略。涉及分布式計(jì)算，也就涉及任務(wù)分發(fā)機(jī)制。整個(gè)分布式Spider系統(tǒng)需要保證所有Spidei?之間不會(huì)有重復(fù)抓取的情況發(fā)生，也就是要為各個(gè)Spider分配好抓取范圍。當(dāng)一個(gè)Spider發(fā)現(xiàn)一個(gè)新的URL時(shí)，會(huì)判斷該URL是否在自己的抓取范圍之內(nèi)，如果在自己的抓取范圍之內(nèi)，就會(huì)把該URL放到自己待抓取URL隊(duì)列中；如果不在自己的抓取范圍之內(nèi)，就會(huì)把該URL提交給上級服務(wù)器，由上級服務(wù)器分發(fā)給相應(yīng)的Spider,并加入到該Spider的待抓取URL列表中。

要確保所有Spider的作業(yè)不重復(fù)，就要求每個(gè)Spider都有自己的抓取范圍，也就是說每個(gè)Spider都會(huì)只抓取指定類型的網(wǎng)頁。這里就要看搜索引擎是如何對網(wǎng)頁進(jìn)行分類的了，常規(guī)網(wǎng)頁的分類方法有三種，第一種是按照優(yōu)秀站點(diǎn)、普通站點(diǎn)、垃圾站點(diǎn)、降權(quán)站點(diǎn)和屏蔽（被K)站點(diǎn)等站點(diǎn)質(zhì)量等級分類；第二種是按照網(wǎng)站首頁、網(wǎng)站目錄頁、網(wǎng)站內(nèi)容頁、網(wǎng)站專題頁、視頻、圖片、新聞、行業(yè)資料、其他類型的網(wǎng)絡(luò)文件（PDF、Word、Excel等）等網(wǎng)頁類型分類；第三種是按照站點(diǎn)或網(wǎng)頁內(nèi)容所在行業(yè)分類。在真正的Spider系統(tǒng)設(shè)計(jì)中，為了減少搜索引擎和被抓取站點(diǎn)服務(wù)器之間的握手次數(shù)（影響抓取效率的重要因素），站點(diǎn)級別相關(guān)的分類應(yīng)該是被優(yōu)先使用的。

Spider會(huì)嚴(yán)格按照自己的作業(yè)任務(wù)進(jìn)行作業(yè)，由以上分類可以看出，對于大部分中小網(wǎng)站一般都會(huì)有一個(gè)固定的Spider進(jìn)行抓取，所以很多站長和SEO人員在分析網(wǎng)站日志時(shí)所發(fā)現(xiàn)的百度Spider經(jīng)常都是同一IP段的，但是不同網(wǎng)站之間發(fā)現(xiàn)的Spider的IP段并不同。理論上，如果參與研究的站點(diǎn)比較多，類型比較豐富，就可以比較容易地分辨出百度Spider的任務(wù)分發(fā)模式，這樣通過分析日志中百度來訪Spider的IP就可以判斷出自己的站點(diǎn)在百度搜索眼中是什么樣的。

針對第一種分類方式，就可能出現(xiàn)某一IP段的Spider只抓取權(quán)重高的網(wǎng)站，某一IP段的Spider只抓取已被搜索引擎降權(quán)或者屏蔽的網(wǎng)站。如果真的是采用這種任務(wù)分發(fā)方式，那么網(wǎng)絡(luò)上所傳的“降權(quán)蜘蛛”就可能存在。不過并不是因?yàn)檫@個(gè)Spider的到來使得網(wǎng)站降權(quán)或者屏蔽，而是因?yàn)樵摼W(wǎng)站已經(jīng)被百度降權(quán)或者屏蔽，百度服務(wù)器才會(huì)把對該站點(diǎn)的抓取任務(wù)分發(fā)給這個(gè)Spider。如果百度使用這種分布式的Spicier,那么網(wǎng)絡(luò)上對百度Spider各IP段特性的總結(jié)也是比較有意義的，不過不可全信，因?yàn)榘俣炔豢赡苤皇褂靡环N任務(wù)分發(fā)模式。這也可以成為站長和SEO人員的研究方向，即使可能最終一無所獲。因?yàn)樗阉饕鎸W(wǎng)站和網(wǎng)頁的分類有太多緯度了，新抓取和再次抓取所使用的緯度就可能不同，很可能各個(gè)緯度都是綜合使用的。

如圖所示為某網(wǎng)友對百度Spider所使用的IP的分析，有興趣的朋友可以百度搜索一下“百度蜘蛛IP段詳解”，有不少類似的總結(jié)，看看就好，不可以絕對當(dāng)真。

SEOER對百度Spider的分析

網(wǎng)站欄目：分布式Spider和“降權(quán)蜘蛛”
鏈接URL：http://www.bm7419.com/news42/81292.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、用戶體驗(yàn)、網(wǎng)站改版、ChatGPT、企業(yè)建站、外貿(mào)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

網(wǎng)站關(guān)鍵詞在網(wǎng)站中可以存在的位置 2020-01-29
網(wǎng)站核心關(guān)鍵詞定位技巧 2020-01-29
網(wǎng)頁設(shè)計(jì)首先要思考的是為潛在目標(biāo)用戶服務(wù) 2020-01-29
正確看待網(wǎng)站優(yōu)化在網(wǎng)絡(luò)營銷中的地位 2020-01-28
網(wǎng)站后臺(tái)如何上傳較大的圖片 2020-01-28
企業(yè)網(wǎng)站優(yōu)化關(guān)鍵詞選擇4個(gè)基本原則 2020-01-28
尋找網(wǎng)站友情鏈接資源的三個(gè)秘籍 2020-01-27
網(wǎng)站標(biāo)題并非一定是關(guān)鍵詞擺放的位置 2020-01-27
網(wǎng)站優(yōu)化中首頁title的創(chuàng)意技巧 2020-01-27