致新手:先了解搜索引擎知識(shí) 再做SEO

2016-11-14    分類(lèi): 網(wǎng)站建設(shè)

搜索引擎蜘蛛抓取的原始頁(yè)面,并不能直接用于查詢(xún)排名處理。搜索引擎數(shù)據(jù)庫(kù)中的頁(yè)面數(shù)都在數(shù)萬(wàn)億級(jí)別以上,用戶(hù)輸入搜索詞后,靠排名程序?qū)崟r(shí)對(duì)這么多頁(yè)面分析相關(guān)性,計(jì)算量太大,不可能在一兩秒內(nèi)返回排名結(jié)果。因此抓取來(lái)的頁(yè)面必須經(jīng)過(guò)預(yù)處理,為最后的查詢(xún)排名做好準(zhǔn)備。

和爬行抓取一樣,預(yù)處理也是在后臺(tái)提前完成的,用戶(hù)搜索時(shí)感覺(jué)不到這個(gè)過(guò)程。

1.提取文字

現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ)。蜘蛛抓取到的頁(yè)面中的HTML代碼,除了用戶(hù)在瀏覽器上可以看到的可見(jiàn)文字外,還包含了大量的HTML格式標(biāo)簽、JavaScript程序等無(wú)法用于排名的內(nèi)容。搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁(yè)面文字內(nèi) 容。

今天愚人節(jié)哈

除去HTML代碼后,剩下的用于排名的文字只是這一行:

今天愚人節(jié)哈

除了可見(jiàn)文字,搜索引擎也會(huì)提取出一些特殊的包含文字信息的代碼,如Meta標(biāo)簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。

2.中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶(hù)搜索都是以詞為基礎(chǔ)的。英文等語(yǔ)言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子 劃分為單詞的集合。而中文詞與詞之間沒(méi)有任何分隔符,一個(gè)句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個(gè)字組成一個(gè)詞,哪些字本身就是一 個(gè)詞。比如“減肥方法將被分詞為“減肥和“方法兩個(gè)詞。

中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統(tǒng)計(jì)。

基于詞典匹配的方法是指,將待分析的一段漢字與一個(gè)事先造好的詞典中的詞條進(jìn)行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說(shuō)切分出一個(gè)單詞。

按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長(zhǎng)度優(yōu)先級(jí)的不同,又可以分為大匹配和最小匹配。將掃描方向和長(zhǎng)度優(yōu)先混合,又可以產(chǎn)生正向大匹配、逆向大匹配等不同方法。

詞典匹配方法計(jì)算簡(jiǎn)單,其準(zhǔn)確度在很大程度上取決于詞典的完整性和更新情況。

基于統(tǒng)計(jì)的分詞方法指的是分析大量文字樣本,計(jì)算出字與字相鄰出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字相鄰出現(xiàn)越多,就越可能形成一個(gè)單詞?;诮y(tǒng)計(jì)的方法的優(yōu)勢(shì)是對(duì)新出現(xiàn)的詞反應(yīng)更快速,也有利于消除歧義。

基于詞典匹配和基于統(tǒng)計(jì)的分詞方法各有優(yōu)劣,實(shí)際使用中的分詞系統(tǒng)都是混合使用兩種方法的,快速高效,又能識(shí)別生詞、新詞,消除歧義。

中文分詞的準(zhǔn)確性往往影響搜索引擎排名的相關(guān)性。比如在百度搜索“搜索引擎優(yōu)化,從快照中可以看到,百度把“搜索引擎優(yōu)化這六個(gè)字當(dāng)成一個(gè)詞。

而在Google搜索同樣的詞,快照顯示Google將其分切為“搜索引擎和“優(yōu)化兩個(gè)詞。顯然百度切分得更為合理,搜索引擎優(yōu)化是一個(gè)完整的概念。Google分詞時(shí)傾向于更為細(xì)碎。

這種分詞上的不同很可能是一些關(guān)鍵詞排名在不同搜索引擎有不同表現(xiàn)的原因之一。比如百度更喜歡將搜索詞完整匹配地出現(xiàn)在頁(yè)面上,也就是說(shuō)搜索“夠戲博客 時(shí),這四個(gè)字連續(xù)完整出現(xiàn)更容易在百度獲得好的排名。Google就與此不同,不太要求完整匹配。一些頁(yè)面出現(xiàn)“夠戲和“博客兩個(gè)詞,但不必完整匹配 地出現(xiàn),“夠戲出現(xiàn)在前面,“博客出現(xiàn)在頁(yè)面的其他地方,這樣的頁(yè)面在Google搜索“夠戲博客時(shí),也可以獲得不錯(cuò)的排名。

搜索引擎對(duì)頁(yè)面的分詞取決于詞庫(kù)的規(guī)模、準(zhǔn)確性和分詞算法的好壞,而不是取決于頁(yè)面本身如何,所以SEO人員對(duì)分詞所能做的很少。唯一能做的是在頁(yè)面上用某種形 式提示搜索引擎,某幾個(gè)字應(yīng)該被當(dāng)做一個(gè)詞處理,尤其是可能產(chǎn)生歧義的時(shí)候,比如在頁(yè)面標(biāo)題、h1標(biāo)簽及黑體中出現(xiàn)關(guān)鍵詞。如果頁(yè)面是關(guān)于“和服的內(nèi) 容,那么可以把“和服這兩個(gè)字特意標(biāo)為黑體。如果頁(yè)面是關(guān)于“化妝和服裝,可以把“服裝兩個(gè)字標(biāo)為黑體。這樣,搜索引擎對(duì)頁(yè)面進(jìn)行分析時(shí)就知道標(biāo)為 黑體的應(yīng)該是一個(gè)詞。

3.去停止詞

無(wú)論是英文還是中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很 高,卻對(duì)內(nèi)容沒(méi)有任何影響的詞,如“的、“地、“得之類(lèi)的助詞,“啊、“哈、“呀之類(lèi)的感嘆詞,“從而、“以、“卻之類(lèi)的副詞或介詞。 這些詞被稱(chēng)為停止詞,因?yàn)樗鼈儗?duì)頁(yè)面的主要意思沒(méi)什么影響。英文中的常見(jiàn)停止詞有the,a,an,to,of等。

搜索引擎在索引頁(yè)面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無(wú)謂的計(jì)算量。

4.消除噪聲

絕 大部分頁(yè)面上還有一部分內(nèi)容對(duì)頁(yè)面主題也沒(méi)有什么貢獻(xiàn),比如版權(quán)聲明文字、導(dǎo)航條、廣告等。以常見(jiàn)的博客導(dǎo)航為例,幾乎每個(gè)博客頁(yè)面上都會(huì)出現(xiàn)文章分類(lèi)、歷史存檔等導(dǎo)航內(nèi)容,但是這些頁(yè)面本身與“分類(lèi)、“歷史這些詞都沒(méi)有任何關(guān)系。用戶(hù)搜索“歷史、“分類(lèi)這些關(guān)鍵詞時(shí)僅僅因?yàn)轫?yè)面上有這些詞出現(xiàn)而 返回博客帖子是毫無(wú)意義的,完全不相關(guān)。所以這些區(qū)塊都屬于噪聲,對(duì)頁(yè)面主題只能起到分散作用。

搜索引擎需要識(shí)別并消除這些噪聲,排名時(shí)不使用噪聲內(nèi)容。消噪的基本方法是根據(jù)HTML標(biāo)簽對(duì)頁(yè)面分塊,區(qū)分出頁(yè)頭、導(dǎo)航、正文、頁(yè)腳、廣告等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊往往屬于噪聲。對(duì)頁(yè)面進(jìn)行消噪后,剩下的才是頁(yè)面主體內(nèi)容。

5.去重

搜索引擎還需要對(duì)頁(yè)面進(jìn)行去重處理。

同 一篇文章經(jīng)常會(huì)重復(fù)出現(xiàn)在不同網(wǎng)站及同一個(gè)網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶(hù)搜索時(shí),如果在前兩頁(yè)看到的都是來(lái)自不同網(wǎng)站的同一 篇文章,用戶(hù)體驗(yàn)就太差了,雖然都是內(nèi)容相關(guān)的。搜索引擎希望只返回相同文章中的一篇,所以在進(jìn)行索引前還需要識(shí)別和刪除重復(fù)內(nèi)容,這個(gè)過(guò)程就稱(chēng)為“去 重。

去重的基本方法是對(duì)頁(yè)面特征關(guān)鍵詞計(jì)算指紋,也就是說(shuō)從頁(yè)面主體內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率高的關(guān)鍵 詞),然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。這里的關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。實(shí)驗(yàn)表明,通常選取10個(gè)特征關(guān)鍵詞就可以達(dá)到比較高的計(jì)算準(zhǔn)確 性,再選取更多詞對(duì)去重準(zhǔn)確性提高的貢獻(xiàn)也就不大了。

典型的指紋計(jì)算方法如MD5算法(信息摘要算法第五版)。這類(lèi)指紋算法的特點(diǎn)是,輸入(特征關(guān)鍵詞)有任何微小的變化,都會(huì)導(dǎo)致計(jì)算出的指紋有很大差距。

了 解了搜索引擎的去重算法,SEO人員就應(yīng)該知道簡(jiǎn)單地增加“的、“地、“得、調(diào)換段落順序這種所謂偽原創(chuàng),并不能逃過(guò)搜索引擎的去重算法,因?yàn)檫@樣 的操作無(wú)法改變文章的特征關(guān)鍵詞。而且搜索引擎的去重算法很可能不止于頁(yè)面級(jí)別,而是進(jìn)行到段落級(jí)別,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲 變成原創(chuàng)。

6.正向索引

正向索引也可以簡(jiǎn)稱(chēng)為索引。

經(jīng)過(guò)文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨(dú)特的、能反映頁(yè)面主體內(nèi)容的、以詞為單位的內(nèi)容。接下來(lái)搜索引擎索引程序就可以提取關(guān)鍵詞,按照分詞程序劃分好的詞, 把頁(yè)面轉(zhuǎn)換為一個(gè)關(guān)鍵詞組成的集合,同時(shí)記錄每一個(gè)關(guān)鍵詞在頁(yè)面上的出現(xiàn)頻率、出現(xiàn)次數(shù)、格式(如出現(xiàn)在標(biāo)題標(biāo)簽、黑體、H標(biāo)簽、錨文字等)、位置(如頁(yè) 面一段文字等)。這樣,每一個(gè)頁(yè)面都可以記錄為一串關(guān)鍵詞集合,其中每個(gè)關(guān)鍵詞的詞頻、格式、位置等權(quán)重信息也都記錄在案。

搜索引擎索引程序?qū)㈨?yè)面及關(guān)鍵詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫(kù)。簡(jiǎn)化的索引詞表形式如表2-1所示。

每個(gè)文件都對(duì)應(yīng)一個(gè)文件ID,文件內(nèi)容被表示為一串關(guān)鍵詞的集合。實(shí)際上在搜索引擎索引庫(kù)中,關(guān)鍵詞也已經(jīng)轉(zhuǎn)換為關(guān)鍵詞ID.這樣的數(shù)據(jù)結(jié)構(gòu)就稱(chēng)為正向索引。

7.倒排索引

正向索引還不能直接用于排名。假設(shè)用戶(hù)搜索關(guān)鍵詞2,如果只存在正向索引,排名程序需要掃描所有索引庫(kù)中的文件,找出包含關(guān)鍵詞2的文件,再進(jìn)行相關(guān)性計(jì)算。這樣的計(jì)算量無(wú)法滿(mǎn)足實(shí)時(shí)返回排名結(jié)果的要求。

所以搜索引擎會(huì)將正向索引數(shù)據(jù)庫(kù)重新構(gòu)造為倒排索引,把文件對(duì)應(yīng)到關(guān)鍵詞的映射轉(zhuǎn)換為關(guān)鍵詞到文件的映射,如表2-2所示。

在倒排索引中關(guān)鍵詞是主鍵,每個(gè)關(guān)鍵詞都對(duì)應(yīng)著一系列文件,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶(hù)搜索某個(gè)關(guān)鍵詞時(shí),排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

8.鏈接關(guān)系計(jì)算

鏈接關(guān)系計(jì)算也是預(yù)處理中很重要的一部分?,F(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈接流動(dòng)信息。搜索引擎在抓取頁(yè)面內(nèi)容后,必須事前計(jì)算出:頁(yè) 面上有哪些鏈接指向哪些其他頁(yè)面,每個(gè)頁(yè)面有哪些導(dǎo)入鏈接,鏈接使用了什么錨文字,這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。

Google PR值就是這種鏈接關(guān)系的最主要體現(xiàn)之一。其他搜索引擎也都進(jìn)行類(lèi)似計(jì)算,雖然它們并不稱(chēng)為PR.

由于頁(yè)面和鏈接數(shù)量巨大,網(wǎng)上的鏈接關(guān)系又時(shí)時(shí)處在更新中,因此鏈接關(guān)系及PR的計(jì)算要耗費(fèi)很長(zhǎng)時(shí)間。關(guān)于PR和鏈接分析,后面還有專(zhuān)門(mén)的章節(jié)介紹。

9.特殊文件處理

除 了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類(lèi)型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們?cè)谒阉鹘Y(jié)果 中也經(jīng)常會(huì)看到這些文件類(lèi)型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類(lèi)非文字內(nèi)容,也不能執(zhí)行腳本和程序。

雖然搜索引擎在識(shí)別圖片及從Flash中提取文字內(nèi)容方面有些進(jìn)步,不過(guò)距離直接靠讀取圖片、視頻、Flash內(nèi)容返回結(jié)果的目標(biāo)還很遠(yuǎn)。對(duì)圖片、視頻內(nèi)容的排名還往往是依據(jù)與之相關(guān)的文字內(nèi)容,詳細(xì)情況可以參考后面的整合搜索部分。

排名

經(jīng)過(guò)搜索引擎蜘蛛抓取的界面,搜索引擎程序 計(jì)算得到倒排索引后,收索引擎就準(zhǔn)備好可以隨時(shí)處理用戶(hù)搜索了。用戶(hù)在搜索框填入關(guān)鍵字后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給客戶(hù),排名過(guò)程是與客戶(hù)直接互動(dòng)的。

分享名稱(chēng):致新手:先了解搜索引擎知識(shí) 再做SEO
文章來(lái)源:http://www.bm7419.com/news39/67339.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、企業(yè)建站、品牌網(wǎng)站制作、服務(wù)器托管、用戶(hù)體驗(yàn)、標(biāo)簽優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁(yè)設(shè)計(jì)