網(wǎng)站robots文件常見問題解答

2024-03-26    分類: 網(wǎng)站建設(shè)

大家好,本篇文章講解如何使用Robots工具及如何正確設(shè)置蜘蛛的抓取范圍。

一、了解什么是robots文件

1、什么是robots文件?
robots文件主要用于聲明搜索引擎蜘蛛Spider在網(wǎng)站里的抓取內(nèi)容的范圍,告訴蜘蛛哪些內(nèi)容不可以抓取哪些資源可以抓;

2、robots.txt文件寫法
robots.txt文件可以包含一條或多條記錄,以空行分開,通常以User-agent開始,后面再加上Disallow或者Allow命令行,不需要的命令行也可以使用#進(jìn)行注解,如下詳情所示:

User-agent:用于描述允許哪些搜索引擎抓取該網(wǎng)站,例如“*”號代表所有搜索引擎都可以抓取,“Baiduspeder”只允許百度蜘蛛抓取,“Googlebot”只允許谷歌蜘蛛抓取,“Bingbot”只允許必應(yīng)蜘蛛抓取。
Disallow:用于描述不希望搜索蜘蛛抓取的URL鏈接或結(jié)構(gòu)目錄,可以是一條完整的URL鏈接,也可以是一個(gè)URL結(jié)構(gòu)目錄,但不能是空格,空格表示此網(wǎng)站禁止所有搜索引擎抓取,以Disallow開頭的URL鏈接或結(jié)構(gòu)目錄是不會(huì)被蜘蛛抓取的。
Allow:正好與Disallow相反,該條robots命令表達(dá)的意思是允許搜索蜘蛛抓取URL鏈接或目錄,因此以Allow開頭的URL鏈接或結(jié)構(gòu)目錄是允許蜘蛛抓取的。
如果網(wǎng)站根目錄沒有robots.txt文件或者為空,那么,表達(dá)的意思是就是此網(wǎng)站所有鏈接和目錄,對所有搜索引擎都是開放的。
注意:大家在撰寫robots.txt文件時(shí),要注意URL鏈接或結(jié)構(gòu)目錄名稱的大小寫,否則robots協(xié)議不會(huì)生效。

3、robots.txt文件放置位置:通常放于網(wǎng)站根目錄下

二、如何使用Robots工具

1、Robots工具的作用?
可使用百度站長平臺(tái)Robots工具,對網(wǎng)站robots.txt文件進(jìn)行校驗(yàn)、更新等操作,查看網(wǎng)站robots.txt文件是否生效或是否有錯(cuò)誤;

2、使用Robots工具的注意事項(xiàng)?
百度站長平臺(tái)Robots工具目前只能檢測48K以內(nèi)的文件,所以站長們要注意,網(wǎng)站robots.txt文件不要過大,新的robots文件創(chuàng)建更新后,蜘蛛不會(huì)馬上調(diào)整抓取方向,是逐步對網(wǎng)站robots.txt文件抓取規(guī)則進(jìn)行更新的。

3、網(wǎng)站robots.txt文件中已經(jīng)設(shè)置了禁止蜘蛛抓取的內(nèi)容,為什么還會(huì)出現(xiàn)在網(wǎng)站索引數(shù)據(jù)中。

可能有以下兩個(gè)方面的原因:
1)網(wǎng)站robots.txt文件不能正常訪問,這種情況,我們可以使用站長平臺(tái)Robots工具進(jìn)行檢測,檢測robots文件是否可以正常訪問;
2)新創(chuàng)建或新更新的robots.txt文件還沒有生效,蜘蛛執(zhí)行的抓取原則還是未更新前robots.txt文件,新的robots文件生效周期為1~2周。

4、Robots工具校驗(yàn)提示
網(wǎng)站Robots文件,出現(xiàn)以上錯(cuò)誤,則有可能是以下原因:

錯(cuò)誤碼500,表示網(wǎng)站robots頁面訪問失?。?br />錯(cuò)誤碼301,表示網(wǎng)站robots文件存在跳轉(zhuǎn)關(guān)系;
錯(cuò)誤碼404,表示網(wǎng)站robots文件不能正常訪問;
如果你網(wǎng)站的Robots文件也有出現(xiàn)以上錯(cuò)誤代碼,建議根據(jù)以上情況進(jìn)行自查,重新提交校驗(yàn)。

5、robots文件禁止了蜘蛛訪問,如何處理?
1)馬上修改網(wǎng)站robots文件,將封禁改為允許;
2)使用站長平臺(tái)robots工具更新robots文件,顯示抓取失敗,多抓取幾次,觸發(fā)蜘蛛來抓取你的網(wǎng)站;
3)注意下抓取頻次情況,如果抓取頻次過低,可申請調(diào)整下抓取頻次;
4)使用百度站長平臺(tái)里的“資源提交-普通收錄”工具,主動(dòng)向搜索引擎提交網(wǎng)站鏈接。

網(wǎng)頁名稱:網(wǎng)站robots文件常見問題解答
本文網(wǎng)址:http://bm7419.com/news2/321852.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航ChatGPT、搜索引擎優(yōu)化、自適應(yīng)網(wǎng)站、軟件開發(fā)、網(wǎng)站維護(hù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作