做SEO不得不知道的robots文件

2013-08-11 分類：網(wǎng)站建設(shè)

　　robots這個(gè)詞對(duì)每一位做SEO優(yōu)化的人來(lái)說(shuō)都不陌生，但是你知道了解全部有關(guān)robots文件的知識(shí)了嗎?不妨來(lái)看看創(chuàng)新互聯(lián)SEO專家接下來(lái)要給大家介紹的robots文件潛規(guī)則。

做SEO不得不知道的robots文件

　　有關(guān)robots文件潛規(guī)則：

　　1、spider名字的大小寫(xiě)問(wèn)題

　　大多數(shù)搜索引擎的spider在讀取user-agent值的時(shí)候都是忽略大小寫(xiě)，既Googlebot和googlebot應(yīng)該都能被google識(shí)別。但是，我在學(xué)習(xí)淘寶seo的時(shí)候也發(fā)現(xiàn)，或許為了保險(xiǎn)起見(jiàn)，淘寶的工作人員在自己的“/robots.txt”里面分別寫(xiě)了“user-agent: baiduspider”和“user-agent: baiduspider”兩條。(參見(jiàn)：http://www.taobao.com/robots.txt)

　　2、不允許出現(xiàn)多條user-agent的記錄

　　一份“/robots.txt”文檔中不允許出現(xiàn)多條包含“user-agent: *”的記錄(但允許沒(méi)有此記錄)。

　　3、allow和disallow的順序

　　大部分情況下，想要兼容所有的機(jī)器人，就應(yīng)當(dāng)將allow指令放在disallow指令的前面，例如：

　　Allow: /a/b.html

　　Disallow: /a/

　　這會(huì)阻止對(duì)”/a/”內(nèi)除了”/a/b.html”以外一切內(nèi)容的檢索，因?yàn)楹笳呤莾?yōu)先匹配成功的。雖然對(duì)于google和百度來(lái)說(shuō)，先后順序并不重要。但是不排除會(huì)導(dǎo)致其他搜索引擎出現(xiàn)抓取問(wèn)題。

　　4、allow與disallow的角力

　　如果allow指令中的地址同disallow指令中的地址相比具有相同或更多字符(意味著allow指令所描述的地址更“深”、更“具體”)的話，雖然disallow指令也能匹配，但allow指令仍然會(huì)“獲勝”(這樣就達(dá)到開(kāi)放子文件夾的目的了，同時(shí)沒(méi)被allow的部分依然不會(huì)被檢索)。

　　舉個(gè)例子吧(假設(shè)和順序無(wú)關(guān))

　　Disallow:/a/b

　　Allow:/a

　　這樣就是允許除b以外的所有a

　　Disallow:/a

　　Allow:/a/b

　　這樣就是禁止除b以外的所有a

　　反斜杠“/”的意義

　　反斜杠“/”表示禁止搜索引擎進(jìn)入該目錄。

　　User-agent: spider

　　Disallow: /a

　　對(duì)這樣的記錄機(jī)器人該怎么反應(yīng)?按照res標(biāo)準(zhǔn)，機(jī)器人會(huì)將名為“a”的文件和名為“a”的目錄都disallow。當(dāng)然，比較符合邏輯切清晰的寫(xiě)法是使用“/”來(lái)標(biāo)識(shí)所聲明的路徑：

　　Disallow: /a/

　　注意不要忘記“a”前面的“/”

　　根據(jù)“/”的意義，對(duì)于只允許某搜索引擎，有些robots.txt會(huì)這樣寫(xiě)

　　User-agent: Baiduspider

　　Disallow:

　　User-agent: *

　　Disallow: /

　　這樣用百度的robots工具測(cè)試也是OK的,但從百度自家產(chǎn)品，百度知道的robots來(lái)看，更多的是寫(xiě)成

　　User-agent: Baiduspider

　　Allow: ?/

　　User-agent: *

　　Disallow: /

　　我其實(shí)在想，或許“/”正確的表述應(yīng)該是"進(jìn)入該目錄"的意思，要不然Allow: ?/就不好理解了

　　在指示行末尾加注的問(wèn)題

　　在“/robots.txt”文件中，凡以“#”開(kāi)頭的行，均被視為注解內(nèi)容，這和unix中的慣例是一樣的。例如：

　　Disallow: /cgi-bin/ # this bans robots from our cgi-bin

　　盡量不要在一行的前面出現(xiàn)空格

　　如“ disallow: /”《很多人非常不小心，空格就沒(méi)了》

　　Res標(biāo)準(zhǔn)并未對(duì)這種格式予以特別說(shuō)明，但和上面一個(gè)問(wèn)題一樣，可能導(dǎo)致某些機(jī)器人無(wú)法正確解讀。

　　文件目錄區(qū)分大小寫(xiě)(這個(gè)或許是困惑大多數(shù)人的)

　　雖然res標(biāo)準(zhǔn)忽略大小寫(xiě)(case insensitive)，但目錄和文件名卻是大小寫(xiě)敏感的。所以對(duì)于”user-agent”和”disallow”指令，用大小寫(xiě)都是可以的。但對(duì)于所聲明的目錄或文件名卻一定要注意大小寫(xiě)的問(wèn)題。例如：

　　Disallow: /abc.htm

　　會(huì)攔截“http://www.example.com/abc.htm”

　　卻會(huì)允許http://www.example.com/Abc.htm

　　所以在IIS服務(wù)器可能出現(xiàn)的諸多大小寫(xiě)目錄問(wèn)題，可以通過(guò)此方法得到圓滿解決。

　　如果頁(yè)面中包含了多個(gè)同類型meta標(biāo)簽，spider會(huì)累加內(nèi)容取值

　　對(duì)于下面兩條語(yǔ)句來(lái)說(shuō)：

　　搜索引擎將會(huì)理解成：

　　當(dāng)內(nèi)容取值沖突的時(shí)候，google和百度等大多數(shù)搜索引擎會(huì)采納限制性最強(qiáng)的參數(shù)

　　例如，如果頁(yè)面中包含如下meta標(biāo)簽：

　　Spider會(huì)服從noindex的取值。

　　如果你既用了robots.txt文件又用了robots meta標(biāo)簽

　　當(dāng)二者出現(xiàn)沖突，googlebot會(huì)服從其中限制較嚴(yán)的規(guī)則

　　如果你在robots.txt中阻止了對(duì)一個(gè)頁(yè)面的檢索，googlebot永遠(yuǎn)不會(huì)爬到這個(gè)頁(yè)面，因此也根本不會(huì)讀到這個(gè)頁(yè)面上的meta標(biāo)簽。如果你在robots.txt里面允許了對(duì)一個(gè)頁(yè)面的檢索，卻在meta標(biāo)簽中禁止了這一行為，googlebot會(huì)到達(dá)這個(gè)頁(yè)面，在讀到meta標(biāo)簽后終止進(jìn)一步的檢索行為。

　　robots文件是我們跟搜索引擎對(duì)話的渠道，而且通過(guò)設(shè)置，我們能夠告訴搜索引擎蜘蛛哪些可以抓取，哪些不可以抓取。

分享題目：做SEO不得不知道的robots文件
文章來(lái)源：http://www.bm7419.com/news/2710.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供品牌網(wǎng)站建設(shè)、Google、ChatGPT、服務(wù)器托管、手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

值得借鑒的SEO優(yōu)化十條不變的硬道理！ 2013-08-11
修改網(wǎng)站標(biāo)題對(duì)SEO?有什么影響? 2013-08-10
優(yōu)酷視頻播放量怎么提升 2013-08-10
優(yōu)酷網(wǎng)的高點(diǎn)擊率對(duì)微視頻網(wǎng)站的影響 2013-08-10
優(yōu)質(zhì)的店鋪的多種流量來(lái)源 2013-08-10
優(yōu)質(zhì)新鮮內(nèi)容對(duì)seo很重要 2013-08-10