各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網站,抓取數(shù)據(jù)的規(guī)則

2022-11-18    分類: 網站建設

搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網站,抓取數(shù)據(jù)的規(guī)則

1、百度蜘蛛:BaiduSpider

常見的Baiduspider和Baiduspider-image(抓取圖片)

百度公司還有其它幾個蜘蛛:Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)、Baiduspider-mobile(抓取wap),都不常見

百度蜘蛛爬蟲UA:

PC端:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移動端:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

圖片:“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”

2、谷歌蜘蛛:Googlebot

有人說谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛最新名稱為Googlebot,還發(fā)現(xiàn)了Googlebot-Mobile,看名字是應該是抓取wap內容的

谷歌蜘蛛爬蟲UA:“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

3、360蜘蛛:360Spider

它是一個十分“勤奮抓爬”的蜘蛛

360蜘蛛爬蟲UA:

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

4、搜狗蜘蛛:Sogou News Spider

搜狗公司還有其它幾個蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,冬鏡在日志中只發(fā)現(xiàn)了常見的Sogou News Spider。(參考大神百度的robots文件,搜狗蜘蛛名稱可以用Sogou概括,但有沒有用就不知道了.)

搜狗蜘蛛爬蟲UA:

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

5、必應蜘蛛:bingbot

必應蜘蛛爬蟲UA:

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

6、SOSO蜘蛛:Sosospider

騰訊已玩死,交給搜狗公司了

soso蜘蛛爬蟲UA:“Sosospider+(+http://help.soso.com/webspider.htm)”

7、雅虎蜘蛛:Yahoo! Slurp China(雅虎中國)或Yahoo! Slurp(雅虎英文)

雅虎蜘蛛爬蟲UA:

雅虎中國:“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

雅虎英文:“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

8、MSN蜘蛛:msnbot,msnbot-media

重慶SEO好像只見到msnbot-media在狂爬……

MSN蜘蛛爬蟲UA:*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

其它還有 一搜蜘蛛:YisouSpider、Alexa蜘蛛:ia_archiver、宜搜蜘蛛:EasouSpider、即刻蜘蛛:JikeSpider,以及還有YandexBot、AhrefsBot和ezooms.bot等這些蜘蛛,據(jù)說這幾個國外的蜘蛛都不咋好

各搜索引擎蜘蛛介紹

搜索引擎蜘蛛是搜索引擎的一個自動程序。它的作用是訪問互聯(lián)網上的網頁、圖片、視頻等內容,建立索引數(shù)據(jù)庫,使用戶能在搜索引擎中搜索到您網站的網頁、圖片、視頻等內容。

一般用法為“ spider+URL”,后面的URL(網址)是搜索引擎的痕跡,如果要查看某搜索引擎是否來爬取過你們的網站,可查看服務器的日志里是否有該URL,同時還能查看來的時間、頻率等…

1、百度蜘蛛:可以根據(jù)服務器的負載能力調節(jié)訪問密度,大大降低服務器的服務壓力。根據(jù)以往的經驗百度蜘蛛通常會過度重復地抓取同樣的頁面,導致其他頁面無法被抓取到而不能被收錄。這種情況可以采取 robots協(xié)議的方法來調節(jié)。

2、谷歌蜘蛛:谷歌蜘蛛屬于比較活躍的網站掃描工具,其間隔28天左右就派出“蜘蛛”檢索有更新或者有修改的網頁。與百度蜘蛛大的不同點是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些。

3、雅虎中國蜘蛛:如果某個網站在谷歌網站下沒有很好的收錄,在雅虎下也不會有很好的收錄和爬行。雅虎蜘蛛的數(shù)量龐大,但平均的效率不是很高,相應的搜索結果質量不高。

4、微軟必應蜘蛛:必應與雅虎有著深度的合作關系,所以基本運行模式和雅虎蜘蛛差不多。

搜索引擎蜘蛛爬取網站

搜索引擎蜘蛛的抓取規(guī)則,如下四點提供參考:

1、搜索引擎蜘蛛要能看到鏈接文字

這個是搜索引擎蜘蛛爬行時能夠檢索到的文字,如果文字或鏈接是通過JavaScript調用,蜘蛛是檢索不到的。頁面的文字內容中主要內容位置越靠前越有利,例如產品名稱放到頁面越靠前的位置,對該頁面產品關鍵詞的排名越有利。

2、搜索引擎蜘蛛能爬行未經 nofollow處理過的鏈接

這一項列出的是搜索引擎蜘蛛能夠檢索到鏈接,蜘蛛能夠通過這些鏈接訪問網站其他頁面,越靠前的鏈接,被蜘蛛爬行的幾率就越大,被搜索引擎收錄的可能性越高。

3、搜索引擎蜘蛛能發(fā)現(xiàn)圖片鏈接并能閱讀到這些圖片所包含的含義

這里主要展示該頁面被搜索引擎蜘蛛和國際W3C標準化監(jiān)測器所檢索到的圖片,搜索引擎能夠根據(jù)圖片at="" 去判斷該圖片的類型,性質和主題,對于判斷該圖片鏈接的頁面的主題有巨大幫助,能有效提高商品展示頁的搜索引擎排名根據(jù)W3C標準,頁面上所有圖片都必須添加alt="" 圖片注釋,網站Logo使用網站名稱加簡短描述,商品圖片使用商品名稱,網頁框架圖片留空。

4、搜索引擎蜘蛛能很好地識別HTML代碼

模擬搜索引擎蜘蛛爬行該頁面時,獲得的“最簡化代碼->是指過濾css, JavaScript后的代碼”,由此可以看出減少代碼空行,換行,空格等多余代碼空間非常重要。

5、搜狗蜘蛛:搜狗蜘蛛的爬取速度比較快,抓取的數(shù)量比起速度來說稍微少點。大的特點是不抓取 robot. text文件。

6、搜搜蜘蛛:搜搜早期是運用谷歌的搜索技術,谷歌有收錄,搜搜肯定也會收錄。2011年搜搜已經宣布采用自己的獨立搜索技術,但搜搜蜘蛛的特性和谷歌蜘蛛的特點還是有著相似的地方。

8、有道蜘蛛:和其他搜索引擎蜘蛛一樣,凡是高權重網站的鏈接一般都能將其收錄。爬行原理也是通過鏈接之間的爬行。

網頁標題:各搜索引擎蜘蛛介紹,搜索引擎蜘蛛爬取網站,抓取數(shù)據(jù)的規(guī)則
URL地址:http://www.bm7419.com/news38/214938.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供服務器托管、網站建設品牌網站制作、App開發(fā)網頁設計公司、手機網站建設

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

商城網站建設