各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網(wǎng)站,抓取數(shù)據(jù)的規(guī)則

2022-11-18    分類: 網(wǎng)站建設(shè)

搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網(wǎng)站,抓取數(shù)據(jù)的規(guī)則

1、百度蜘蛛:BaiduSpider

常見的Baiduspider和Baiduspider-image(抓取圖片)

百度公司還有其它幾個(gè)蜘蛛:Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)、Baiduspider-mobile(抓取wap),都不常見

百度蜘蛛爬蟲UA:

PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移動(dòng)端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

圖片:“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”

2、谷歌蜘蛛:Googlebot

有人說(shuō)谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛最新名稱為Googlebot,還發(fā)現(xiàn)了Googlebot-Mobile,看名字是應(yīng)該是抓取wap內(nèi)容的

谷歌蜘蛛爬蟲UA:“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

3、360蜘蛛:360Spider

它是一個(gè)十分“勤奮抓爬”的蜘蛛

360蜘蛛爬蟲UA:

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

4、搜狗蜘蛛:Sogou News Spider

搜狗公司還有其它幾個(gè)蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,冬鏡在日志中只發(fā)現(xiàn)了常見的Sogou News Spider。(參考大神百度的robots文件,搜狗蜘蛛名稱可以用Sogou概括,但有沒有用就不知道了.)

搜狗蜘蛛爬蟲UA:

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

5、必應(yīng)蜘蛛:bingbot

必應(yīng)蜘蛛爬蟲UA:

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

6、SOSO蜘蛛:Sosospider

騰訊已玩死,交給搜狗公司了

soso蜘蛛爬蟲UA:“Sosospider+(+http://help.soso.com/webspider.htm)”

7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中國(guó))或Yahoo! Slurp(雅虎英文)

雅虎蜘蛛爬蟲UA:

雅虎中國(guó):“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

雅虎英文:“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

8、MSN蜘蛛:msnbot,msnbot-media

重慶SEO好像只見到msnbot-media在狂爬……

MSN蜘蛛爬蟲UA:*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

其它還有 一搜蜘蛛:YisouSpider、Alexa蜘蛛:ia_archiver、宜搜蜘蛛:EasouSpider、即刻蜘蛛:JikeSpider,以及還有YandexBot、AhrefsBot和ezooms.bot等這些蜘蛛,據(jù)說(shuō)這幾個(gè)國(guó)外的蜘蛛都不咋好

各搜索引擎蜘蛛介紹

搜索引擎蜘蛛是搜索引擎的一個(gè)自動(dòng)程序。它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容,建立索引數(shù)據(jù)庫(kù),使用戶能在搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容。

一般用法為“ spider+URL”,后面的URL(網(wǎng)址)是搜索引擎的痕跡,如果要查看某搜索引擎是否來(lái)爬取過(guò)你們的網(wǎng)站,可查看服務(wù)器的日志里是否有該URL,同時(shí)還能查看來(lái)的時(shí)間、頻率等…

1、百度蜘蛛:可以根據(jù)服務(wù)器的負(fù)載能力調(diào)節(jié)訪問密度,大大降低服務(wù)器的服務(wù)壓力。根據(jù)以往的經(jīng)驗(yàn)百度蜘蛛通常會(huì)過(guò)度重復(fù)地抓取同樣的頁(yè)面,導(dǎo)致其他頁(yè)面無(wú)法被抓取到而不能被收錄。這種情況可以采取 robots協(xié)議的方法來(lái)調(diào)節(jié)。

2、谷歌蜘蛛:谷歌蜘蛛屬于比較活躍的網(wǎng)站掃描工具,其間隔28天左右就派出“蜘蛛”檢索有更新或者有修改的網(wǎng)頁(yè)。與百度蜘蛛大的不同點(diǎn)是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中國(guó)蜘蛛:如果某個(gè)網(wǎng)站在谷歌網(wǎng)站下沒有很好的收錄,在雅虎下也不會(huì)有很好的收錄和爬行。雅虎蜘蛛的數(shù)量龐大,但平均的效率不是很高,相應(yīng)的搜索結(jié)果質(zhì)量不高。

4、微軟必應(yīng)蜘蛛:必應(yīng)與雅虎有著深度的合作關(guān)系,所以基本運(yùn)行模式和雅虎蜘蛛差不多。

搜索引擎蜘蛛爬取網(wǎng)站

搜索引擎蜘蛛的抓取規(guī)則,如下四點(diǎn)提供參考:

1、搜索引擎蜘蛛要能看到鏈接文字

這個(gè)是搜索引擎蜘蛛爬行時(shí)能夠檢索到的文字,如果文字或鏈接是通過(guò)JavaScript調(diào)用,蜘蛛是檢索不到的。頁(yè)面的文字內(nèi)容中主要內(nèi)容位置越靠前越有利,例如產(chǎn)品名稱放到頁(yè)面越靠前的位置,對(duì)該頁(yè)面產(chǎn)品關(guān)鍵詞的排名越有利。

2、搜索引擎蜘蛛能爬行未經(jīng) nofollow處理過(guò)的鏈接

這一項(xiàng)列出的是搜索引擎蜘蛛能夠檢索到鏈接,蜘蛛能夠通過(guò)這些鏈接訪問網(wǎng)站其他頁(yè)面,越靠前的鏈接,被蜘蛛爬行的幾率就越大,被搜索引擎收錄的可能性越高。

3、搜索引擎蜘蛛能發(fā)現(xiàn)圖片鏈接并能閱讀到這些圖片所包含的含義

這里主要展示該頁(yè)面被搜索引擎蜘蛛和國(guó)際W3C標(biāo)準(zhǔn)化監(jiān)測(cè)器所檢索到的圖片,搜索引擎能夠根據(jù)圖片at="" 去判斷該圖片的類型,性質(zhì)和主題,對(duì)于判斷該圖片鏈接的頁(yè)面的主題有巨大幫助,能有效提高商品展示頁(yè)的搜索引擎排名根據(jù)W3C標(biāo)準(zhǔn),頁(yè)面上所有圖片都必須添加alt="" 圖片注釋,網(wǎng)站Logo使用網(wǎng)站名稱加簡(jiǎn)短描述,商品圖片使用商品名稱,網(wǎng)頁(yè)框架圖片留空。

4、搜索引擎蜘蛛能很好地識(shí)別HTML代碼

模擬搜索引擎蜘蛛爬行該頁(yè)面時(shí),獲得的“最簡(jiǎn)化代碼->是指過(guò)濾css, JavaScript后的代碼”,由此可以看出減少代碼空行,換行,空格等多余代碼空間非常重要。

5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比較快,抓取的數(shù)量比起速度來(lái)說(shuō)稍微少點(diǎn)。大的特點(diǎn)是不抓取 robot. text文件。

6、搜搜蜘蛛:搜搜早期是運(yùn)用谷歌的搜索技術(shù),谷歌有收錄,搜搜肯定也會(huì)收錄。2011年搜搜已經(jīng)宣布采用自己的獨(dú)立搜索技術(shù),但搜搜蜘蛛的特性和谷歌蜘蛛的特點(diǎn)還是有著相似的地方。

8、有道蜘蛛:和其他搜索引擎蜘蛛一樣,凡是高權(quán)重網(wǎng)站的鏈接一般都能將其收錄。爬行原理也是通過(guò)鏈接之間的爬行。

文章題目:各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網(wǎng)站,抓取數(shù)據(jù)的規(guī)則
分享鏈接:http://bm7419.com/news/214938.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、網(wǎng)頁(yè)設(shè)計(jì)公司、營(yíng)銷型網(wǎng)站建設(shè)、服務(wù)器托管、網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷型網(wǎng)站建設(shè)