如何設(shè)置robots.txt禁止或只允許搜索引擎抓取特定目錄

2021-11-23    分類(lèi): 網(wǎng)站建設(shè)

搜索引擎來(lái)網(wǎng)站抓取內(nèi)容的時(shí)候,首先會(huì)訪(fǎng)問(wèn)你網(wǎng)站根目錄下的一個(gè)文本文件robots.txt,搜索引擎機(jī)器人通過(guò)robots.txt里的說(shuō)明,來(lái)理解該網(wǎng)站是否可以全部抓取,或只允許部分抓取。
注意:網(wǎng)站的robots.txt文件一定要存放在網(wǎng)站的根目錄。
搜索引擎來(lái)網(wǎng)站抓取內(nèi)容的時(shí)候,首先會(huì)訪(fǎng)問(wèn)你網(wǎng)站根目錄下的一個(gè)文本文件robots.txt,搜索引擎機(jī)器人通過(guò)robots.txt里的說(shuō)明,來(lái)理解該網(wǎng)站是否可以全部抓取,或只允許部分抓取。

注意:網(wǎng)站的robots.txt文件一定要存放在網(wǎng)站的根目錄。

robots.txt文件舉例說(shuō)明
禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何內(nèi)容
User-agent: *
Disallow: /

禁止所有搜索引擎抓取某些特定目錄
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/

允許訪(fǎng)問(wèn)特定目錄中的部分url
User-agent: *
allow: /158
allow: /joke

禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面


User-agent: *
Disallow: /**


僅允許百度抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

1.屏蔽404頁(yè)面
Disallow: /404.html

2.屏蔽死鏈
原來(lái)在目錄為/158下的所有鏈接,因?yàn)槟夸浀刂返母淖?,現(xiàn)在都變成死鏈接了,那么我們可以用robots.txt把他屏蔽掉。
Disallow: /158/

3.屏蔽動(dòng)態(tài)的相似頁(yè)面
假設(shè)以下這兩個(gè)鏈接,內(nèi)容其實(shí)差不多。
/XXX123
/123.html
我們要屏掉/XXX123 頁(yè)面,代碼如下:
Disallow: /XXX

4.告訴搜索引擎你的sitemap.xml地址
具體代碼如下:
Sitemap: 你的sitemap地址ap: 你的sitemap地址

當(dāng)前題目:如何設(shè)置robots.txt禁止或只允許搜索引擎抓取特定目錄
文章轉(zhuǎn)載:http://www.bm7419.com/news33/137133.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、網(wǎng)站維護(hù)網(wǎng)站導(dǎo)航、網(wǎng)站收錄、品牌網(wǎng)站設(shè)計(jì)自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成都定制網(wǎng)站建設(shè)

網(wǎng)站建設(shè)知識(shí)

同城分類(lèi)信息