影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些

2016-09-09    分類: 網(wǎng)站建設(shè)

影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些?百度爬蟲抓取量其實(shí)簡單來講就是百度爬蟲對(duì)站點(diǎn)一天抓取網(wǎng)頁的數(shù)量,從百度內(nèi)部透露來說,一般會(huì)抓兩種網(wǎng)頁,這里新網(wǎng)小編為大家介紹一下影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些。
其中一個(gè)是這個(gè)站點(diǎn)產(chǎn)生新的網(wǎng)頁,一般中小型站當(dāng)天就可以完成,大型網(wǎng)站可能完成不了,另一種是百度以前抓過的網(wǎng)頁,它是需要更新的,比如一個(gè)站點(diǎn)已經(jīng)被百度收錄了5w,那么百度會(huì)給出一個(gè)時(shí) 間段,比如30天,然后平均一下,每天到這個(gè)站點(diǎn)上面抓5W/30的這樣一個(gè)數(shù)字,但是具體的量,百度有自己的一套算法公式來計(jì)算。
影響百度抓取量的因素。
1.站點(diǎn)安全
對(duì)于中小型站點(diǎn),在安全技術(shù)上比較薄弱,被黑被篡改的現(xiàn)象非常常見,一般被黑有常見幾種情況,一種是主域被黑,一種是標(biāo)題被篡改,還有一種是在頁面里面加 了很多的外鏈。一般主域被黑就是被劫持,就是主域被進(jìn)行301的跳轉(zhuǎn)到指定的網(wǎng)站,而如果在百度那邊發(fā)現(xiàn)跳轉(zhuǎn)后的是一些垃圾站,那么你這個(gè)站點(diǎn)抓取量會(huì)里 面降低。
2.內(nèi)容質(zhì)量
如果抓取了10萬條,而只有100條建庫了,那么抓取量還會(huì)降下來,因?yàn)榘俣葧?huì)認(rèn)為抓取的網(wǎng)頁比例很低,那么就沒必要去抓取更多,所以要"寧缺毋濫",特別要注意在建站的時(shí)候一定要注意質(zhì)量,不要采集一些內(nèi)容,這是一種潛在的隱患。
3.站點(diǎn)響應(yīng)速度
①網(wǎng)頁的大小會(huì)影響抓取,百度建議網(wǎng)頁的大小在1M以內(nèi),當(dāng)然類似大的門戶網(wǎng)站,如新浪另說。
②代碼質(zhì)量、機(jī)器的性能及帶寬,這個(gè)不多說,后續(xù)筆者會(huì)單獨(dú)拿出一篇文章講解,請(qǐng)實(shí)時(shí)關(guān)注“營銷小能手”。
4.同ip上面主域的數(shù)量
百度抓取都是按照ip進(jìn)行去抓取的,比如在一個(gè)ip上一天抓取了1000w個(gè)頁面,而在這個(gè)站點(diǎn)上有40W的站點(diǎn),那么平均下來抓取每個(gè)站點(diǎn)的數(shù)量會(huì)分的很少。
影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些,相信大家都知道了,在這里提醒大家在選擇服務(wù)商的時(shí)候,要看一看同ip上面有沒有大站,如果有大站的話,可能會(huì)被分得的抓取量會(huì)很少,因?yàn)榱髁慷寂艽笳旧厦嫒チ恕?

本文標(biāo)題:影響百度爬蟲對(duì)網(wǎng)站抓取量的因素有哪些
網(wǎng)站路徑:http://www.bm7419.com/news/46244.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、網(wǎng)站策劃、品牌網(wǎng)站建設(shè)、做網(wǎng)站、關(guān)鍵詞優(yōu)化、電子商務(wù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管