搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛來(lái)抓取頁(yè)面?

2013-10-27    分類(lèi): 網(wǎng)站建設(shè)

搜索引擎的工作過(guò)程大體可以分成三個(gè)階段:

(1)爬行和抓?。核阉饕嬷┲胪ㄟ^(guò)跟蹤鏈接發(fā)現(xiàn)和訪(fǎng)問(wèn)頁(yè)面,讀取頁(yè)面HTML代碼,存到數(shù)據(jù)庫(kù)。

(2)預(yù)處理:索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調(diào)用。

(3)排名:用戶(hù)輸入查詢(xún)?cè)~(關(guān)鍵詞)后,排名程序調(diào)用索引數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。

搜索引擎工作原理

搜索引擎的工作原理

爬行和抓取是搜索引擎工作的第一步,完成數(shù)據(jù)收集的任務(wù)。搜索引擎用來(lái)抓取頁(yè)面的程序被稱(chēng)為蜘蛛(spider)

一個(gè)合格的SEOer,要想讓自己的更多頁(yè)面被收錄,就要想法設(shè)法吸引蜘蛛來(lái)抓取。

蜘蛛抓取頁(yè)面有幾方面因素:

(1)網(wǎng)站和頁(yè)面的權(quán)重,質(zhì)量高、時(shí)間長(zhǎng)的網(wǎng)站一般被認(rèn)為權(quán)重比較高,爬行深度也會(huì)比較高,被收錄的頁(yè)面也會(huì)更多。

(2)頁(yè)面的更新頻率,蜘蛛每次爬行都會(huì)把頁(yè)面數(shù)據(jù)儲(chǔ)存起來(lái),如果第二次,第三次的抓取和第一次的一樣,說(shuō)明沒(méi)有更新,久而久之,蜘蛛也就沒(méi)有必要經(jīng)常抓取你的頁(yè)面啦。如果內(nèi)容經(jīng)常更新,蜘蛛就會(huì)頻繁訪(fǎng)問(wèn)頁(yè)面,來(lái)抓取新的頁(yè)面。

(3)導(dǎo)入鏈接,不管是內(nèi)部鏈接還是外部鏈接,要想被蜘蛛抓取,就必須有導(dǎo)入鏈接進(jìn)入頁(yè)面,否則蜘蛛就不會(huì)知道頁(yè)面的存在。

(4)與首頁(yè)的點(diǎn)擊距離,一般網(wǎng)站上權(quán)重高的是首頁(yè),大部分外部鏈接都會(huì)指向首頁(yè),那么蜘蛛訪(fǎng)問(wèn)最頻繁的頁(yè)面就是首頁(yè),離首頁(yè)點(diǎn)擊距離越近,頁(yè)面權(quán)重越高,被爬行的機(jī)會(huì)越大。

吸引百度蜘蛛

如何吸引蜘蛛來(lái)抓取我們的頁(yè)面?

堅(jiān)持有頻率的更新網(wǎng)站內(nèi)容,最好是高質(zhì)量的原創(chuàng)內(nèi)容。

主動(dòng)向搜索引擎提供我們的新頁(yè)面,讓蜘蛛更快的發(fā)現(xiàn),如百度的鏈接提交、抓取診斷等。

搭建外部鏈接,可以和相關(guān)的網(wǎng)站做友情鏈接交換,可以去別的平臺(tái)發(fā)布高質(zhì)量的文章指向自己的頁(yè)面,內(nèi)容要相關(guān)。

制作網(wǎng)站地圖,每個(gè)網(wǎng)站都應(yīng)該有一個(gè)sitemap,網(wǎng)站所有的頁(yè)面都在sitemap中,方便蜘蛛抓取。

當(dāng)前題目:搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛來(lái)抓取頁(yè)面?
標(biāo)題鏈接:http://bm7419.com/news46/4096.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)站策劃、網(wǎng)站建設(shè)、面包屑導(dǎo)航域名注冊(cè)、網(wǎng)站維護(hù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名