SEO優(yōu)化難于上青天?HITS鏈接算法助一臂之力

2020-09-03    分類: 網(wǎng)站建設(shè)

HITS(Hyperlink - Induced Topic Search)鏈接分析算法誕生在1997年,該算法是由康奈爾大學(xué)中的一位博士提出,并且該算法沿用于全球多個搜索引擎當(dāng)中。當(dāng)然,不同的搜索引擎針對于該算法的側(cè)重點和內(nèi)部公式都有不一的算法結(jié)構(gòu)調(diào)整,并且HITS算法也是鏈接分析中最為重要的基礎(chǔ)算法之一。

對于目前國內(nèi)的整體搜索引擎而言,百度作為國內(nèi)的搜索引擎領(lǐng)頭羊,我會帶著HITS的公開文檔針對百度搜索引擎進(jìn)行多元化的角度和實驗來深度解析HITS在SEO中的實戰(zhàn)應(yīng)用。

首先,我們先來了解一下什么是HITS算法,包括他的計算公式和算法原理以及他優(yōu)缺點。深刻的理解了這些含義以后,然后我們借助一些特定的實驗來驗證HITS的效果和實用性。

在HITS鏈接分析算法當(dāng)中,闡述最多的兩個點就是Hub頁面與Authority頁面。

一、什么是Authority頁面(權(quán)威頁面)

簡單來說Authority頁面(權(quán)威頁面)是指在某一個領(lǐng)域范圍內(nèi)或者某一個相關(guān)主題范圍內(nèi)的高質(zhì)量網(wǎng)頁。比如招聘領(lǐng)域,前程無憂網(wǎng)站的首頁就是該領(lǐng)域的一個高質(zhì)量優(yōu)質(zhì)網(wǎng)頁。比如淘寶首頁就是電商領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁。

二、什么是Hub頁面(樞紐頁面)

而Hub頁面(樞紐頁面)通常就是它頁面本身包含了很多高質(zhì)量的Authority頁面的鏈接,比如360網(wǎng)址導(dǎo)航首頁就是一個非常好的Hub頁面(樞紐頁面)。因為在360網(wǎng)址導(dǎo)航的站點頁面里面聚合了眾多的不同類型的權(quán)威站點集合,比如新聞板塊聚集了新浪、騰訊等權(quán)威站點。視頻板塊聚集了搜狐視頻、優(yōu)酷視頻等權(quán)威站點。這個點和大家經(jīng)常發(fā)布的一些分類目錄網(wǎng)站外鏈有點類似(所以為何網(wǎng)站目錄外鏈還存在一定的效果,正是因為搜索引擎本身有自己特有的算法才會影響到你的排名)。

三、HITS算法意義

之所以存在HITS算法,是因為搜索引擎需要在全球所抓取的網(wǎng)頁文檔集合當(dāng)中找到與用戶搜索請求查詢詞匹配度與之相關(guān)高的頁面進(jìn)行符合匹配,而這里的匹配度相關(guān)高的則是一些高質(zhì)量的“Authority”頁面和“Hub”頁面,而不是大家常常理解的站內(nèi)文章優(yōu)質(zhì)原創(chuàng)等因素。尤其是一些權(quán)威頁面,搜索引擎更加親耐,因為這類站點頁面的內(nèi)容會更加滿足用戶查詢的內(nèi)容。

有很多朋友可能會問到一個問題,如何成為權(quán)威頁面或者樞紐頁面呢?

其實樞紐頁面在前面從概念意義上解釋來說已經(jīng)告訴了大家如何去成為樞紐頁面。比如360導(dǎo)航網(wǎng)站的某一個站點類型的聚合頁面,再比如網(wǎng)站分類目錄站點的某一個站點類型的聚合頁面,這些都屬于樞紐頁面,但是樞紐頁面也會分為高質(zhì)量樞紐頁面和一般性樞紐頁面。比如360導(dǎo)航網(wǎng)站首頁不僅是樞紐頁面并且還是導(dǎo)航站點的權(quán)威頁面。

那么又如何成為權(quán)威頁面呢?

這里就會提到大家想要理解的一個深層次的東西了,所謂的高權(quán)重外鏈其實可以理解為高權(quán)威外鏈,即權(quán)重=權(quán)威。搜索引擎針對每一個站點和該站點的每一個頁面都有一系列的網(wǎng)頁評分,而這類評分決定著頁面的鏈接是否為有效的信任度。而權(quán)威頁面往往會有幾個特點:

1、品牌屬性

不管是某一種類型的站點,一旦要想成為行業(yè)的權(quán)威,品牌屬性必定濃厚,這點大家可以從百度搜索引擎的知心算法可以得知。如當(dāng)用戶搜索網(wǎng)上商城會聯(lián)想到京東、天貓;再如當(dāng)用戶搜索空調(diào)會聯(lián)想到海爾、格力、美的等知名品牌。正是因為這類品牌屬性,可以讓這類品牌官網(wǎng)站點在某一個行業(yè)領(lǐng)域形成獨特的權(quán)威度。但是,對于搜索引擎而言,這類品牌屬性搜索引擎是感觀不到的,而用戶卻可以知曉。因為對于用戶而言,用戶可以通過報刊,電視等多媒體方式了解到這些品牌的循環(huán)曝光,從而積累品牌的印象程度。那么搜索引擎是如何計算出這些品牌屬性的權(quán)威程度呢?針對搜索引擎來說,搜索引擎會通過全網(wǎng)抓取技術(shù)檢索全球所有網(wǎng)頁集合,根據(jù)文檔檢索模型計算出詞頻,而詞頻計算出來的相關(guān)詞頻次結(jié)合度高的一類詞就是一個主題的符合度。通常情況下,是行業(yè)產(chǎn)品詞+品牌詞檢索。

2、歷史屬性

歷史屬性我們可以稱之為信任度屬性,何為信任度屬性,簡單的理解就是一個權(quán)威的站點必定是本身的頁面存在一定的真實性、可靠性的價值信任信息,就如百度百科的詞條會有對應(yīng)的參考資料來作為參考佐證,從而針對內(nèi)容進(jìn)行信任度提升。所以即使內(nèi)容不是原創(chuàng),如果頁面滿足了信任度屬性,你的內(nèi)容一樣非常有價值,也利于搜索引擎優(yōu)化。信任度屬性除了信息價值信任之外還有一點就是歷史數(shù)據(jù)積累,這點在老域名站點體現(xiàn)的非常明顯。越老的站點信任度屬性就體現(xiàn)的越明顯,比如做一些灰色產(chǎn)業(yè)或者做醫(yī)療的SEO人員就非常喜歡采用使用過的并且干凈底子的老域名進(jìn)行優(yōu)化效果好。

3、曝光屬性

權(quán)威頁面除了品牌屬性和歷史數(shù)據(jù)積累等屬性還有一點就是曝光屬性,這類曝光屬性會包含兩個大類,其中是站內(nèi)曝光屬性和站外曝光屬性。站內(nèi)曝光屬性可以理解為頁面收錄量,一般情況下,當(dāng)一個域名使用了10多年,每天都在充實著一些主題非常一致的優(yōu)質(zhì)樞紐頁面的時候,那么自然而然他的曝光也會放的很大。而站外曝光屬性就是在整個互聯(lián)網(wǎng)站點文檔集合里面所體現(xiàn)出你品牌屬性的詞頻集合和關(guān)鍵詞主題一致的文檔數(shù)量,比如闡述淘寶的網(wǎng)頁相關(guān)結(jié)果數(shù)有X億個網(wǎng)頁。而X億張網(wǎng)頁集合里面和淘寶相關(guān)度最密切的是關(guān)于電商、商城、網(wǎng)購等主題行業(yè)詞匯。那么通過歷史屬性的數(shù)據(jù)積累,淘寶站點在電商領(lǐng)域歸屬于權(quán)威站點。

四、HITS算法缺陷

每個搜索引擎算法都有自己的優(yōu)勢和缺陷,HITS也不例外,在HITS算法當(dāng)中,有4個最常見的缺陷,其中包含了計算效率低、主題漂移、容易作弊和結(jié)構(gòu)不穩(wěn)定。

由于HITS算法是與之查詢相關(guān)的算法,所以不能先計算,而必須是用戶請求了某一個搜索詞以后才能去計算該詞的一些站點文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性需要通過多次的計算迭代才能最終計算出檢索結(jié)果的文檔鏈接的推薦度投票,所以導(dǎo)致計算效率比較低下。

而主題漂移問題則是大家常??梢钥吹搅艘恍┈F(xiàn)象,即使我交換的鏈接和我站點主題沒有一條相關(guān),但是也會促進(jìn)我的頁面關(guān)鍵詞排名提升。而這種現(xiàn)象正是因為HITS的特殊算法結(jié)構(gòu)才出現(xiàn)了給與這些無關(guān)網(wǎng)頁很高的排名。最終導(dǎo)致了搜索結(jié)果發(fā)生了主題漂移,而這種現(xiàn)象也稱為“緊密鏈接社區(qū)現(xiàn)象”。

之所以容易用來作弊是因為HITS強(qiáng)調(diào)的比較多的還是樞紐頁面和權(quán)威頁面之間的一種相互增強(qiáng)關(guān)系。作弊者可以通過建立新頁面的形式,并且在新建立的網(wǎng)頁中加入了很多高質(zhì)量的權(quán)威頁面鏈接,自身頁面就會形成了一個很好的樞紐頁面,然后作弊者可以通過該頁面的一個權(quán)威樞紐性,再指向作弊網(wǎng)頁鏈接,從而給與作弊網(wǎng)頁增加權(quán)威頁面得分。如下圖所示:


上圖所示的頁面文檔集合里面包含了4個導(dǎo)出鏈接,假設(shè)該頁面是闡述視頻網(wǎng)站排行榜的相關(guān)內(nèi)容信息,而4個導(dǎo)出鏈接均包含了不同的4個獨立的視頻站點,其中三個為已知的權(quán)威站點,第二個站點為我們作弊的站點。而此方式可以用來增加鏈接的投票推薦度。

最后一個HITS的缺陷在于它的結(jié)構(gòu)不穩(wěn)定,何為結(jié)構(gòu)不穩(wěn)定?簡單來說就是在原來的網(wǎng)頁文檔集合里面,如果新增或刪除網(wǎng)頁鏈接,那么就會對HITS算法排名有著非常大的改變。比如大家都知道交換的鏈接除了相關(guān)性還需要講究穩(wěn)定性,卻不知道穩(wěn)定性這個概念正是因為HITS的缺陷而導(dǎo)致的,如果鏈接一旦不穩(wěn)定,包括鏈接位置變動、鏈接被刪除等都會影響算法結(jié)構(gòu)的重新計算。從而影響了自身站點的關(guān)鍵詞排名。

五、HITS算法實戰(zhàn)應(yīng)用(實驗)

現(xiàn)在我們到了SEO實驗階段了,說千道萬不如實戰(zhàn)驗證。由于文章的特殊性,所以本文只發(fā)布和分析一個案例。首先我們來了解下實驗步驟!

步驟:

第一步:實驗假設(shè)

假設(shè)一:樞紐頁面與權(quán)威頁面均成立(存在這種現(xiàn)象/說法);

假設(shè)二:假設(shè)一個網(wǎng)站在不操作任何外鏈、站內(nèi)更新、站內(nèi)布局調(diào)整的情況通過HITS算法的邏輯提升排名;

第二步:準(zhǔn)備實驗站點(記錄實驗時間和站點快照時間)

1、首先我們準(zhǔn)備了一個地區(qū)SEO詞排名在23位的站點,該站點的該詞排名穩(wěn)定23位超過1一個月(因為不排除其他外鏈、內(nèi)容更新影響排名的下降或者提升),所以該站排名23位空檔穩(wěn)定一個月+最好。

2、然后我們記錄好站點的快照時間以及最后更新文章的時間節(jié)點,保證頁面沒有被蜘蛛抓取更新過和頁面做過內(nèi)容變動(達(dá)到實驗的好效果),如下圖所示:


快照時間:2017年02月03日 11:42:34

第三步:HITS算法驗證(記錄實驗時間和站點快照時間)

1、驗證方式:Hub樞紐頁面驗證

2、驗證詳細(xì)步驟:首先我們知道一個好的樞紐頁面里面肯定會包含一些權(quán)威頁面或者包含了一些好的樞紐頁面,那么我們是不可能去加一些百度、新浪這種鏈接給自己做導(dǎo)出的,因為并不符合相關(guān)性邏輯。那么我們添加的其實就是排名首頁的太原SEO站點,如下圖所示:


上圖是實驗站點添加的7個排名在首頁的太原SEO網(wǎng)站站點,并且為了防止頁面權(quán)重流失,均添加了Nofollow。那么肯定就會有一個問題,為何我們要添加首頁的而不是排名第三頁或者第五頁的太原SEO的站點。其實如果大家往回去思考這個Hits算法就不難發(fā)現(xiàn)hits所強(qiáng)調(diào)的hub頁面在某一個點(領(lǐng)域)上肯定是有權(quán)威性的,并且搜索引擎的目的是為了用戶需求而產(chǎn)生檢索結(jié)果。如果你把排名前10位的站點容納在一個站點上面,就已經(jīng)告訴了用戶,我的這個站可以找到你想要的內(nèi)容。并且我這個站的主題也是“太原SEO”,那么可以更加符合用戶檢索結(jié)果。

第四步:排名統(tǒng)計(記錄實驗時間和站點快照時間)

我們在來看一下添加加了Nofollow以后的單向鏈接的快照,如下圖所示:


快照更新時間:2017年02月08日 21:45:06

雖然快照更新。但是排名記錄23位,這個時候需要有耐心,因為快照更新不代表排名會更新,需要時間等待,我們用工具每天記錄了該站點“太原SEO”的排名,如下圖所示:


我們可以通過5118大數(shù)據(jù)平臺看到從2月4日修改鏈接以后直到2月8日快照更新排名都沒有提升過,直到快照更新后的5天時間,排名發(fā)生了變化,并且中途出現(xiàn)過排名波動退檔到原來的位置。然后我們在來看一張排名截圖,如下圖所示:


從2月20日排名回檔在到恢復(fù)以后直到目前文章截稿位置排名一直穩(wěn)定第二頁。說明整個實驗操作過程排名提升了10個位置左右。

第五步:效果評估與總結(jié)(記錄實驗時間)

通過整個的算法原理分析、實驗認(rèn)證,大家可以很清晰的看到利用一些搜索引擎算法去做到一些事情。當(dāng)然這里面可能有會有人提出質(zhì)疑,一個實驗會不會是巧合,由于類似實驗我操作過不下數(shù)十次,成功率基本上高達(dá)90%,所以幾乎不存在所謂的巧合。但是并不是每個朋友都可以去這么操作,因為里面有很多需要注意的細(xì)節(jié)。

1、為何我要選擇一個站點排名在23位去做實驗,而不是100后的站點?因為從Hits算法本身來說,如果你去采用一個100以后也就是沒有排名的站點去做實驗操作明顯是有問題的,因為并不滿足Hub的要求。搜索引擎認(rèn)可一個站點需要一定的時間和信任度,在你網(wǎng)站沒有任何信任度的情況下你去加一些很好的Hub鏈接放到自己的網(wǎng)站上面并不能產(chǎn)生很大的效果。

2、之所以在有排名的情況下去操作是因為這種微調(diào)效果非常好,并且記得加上Nofollow,利于防止權(quán)重流失。

3、如果你的域名是老域名(使用過的老域名站點),那么及時在沒有排名的情況也可以去進(jìn)行這類實驗操作,因為老域名站點本身就具備一定的信任度,無需讓搜索引擎長時間的去評定頁面的質(zhì)量(包含了信任度評分、頁面價值評分等)。

總體來說,在搜索引擎里面,算法其實有非常多,包括公開的鏈接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如還有文檔檢索模型(包含向量空間模型、概率模型、布爾模型等),在比如還有倒排索引、TF-IDF等,其實這類算法在百度上都可以找到他們對應(yīng)的透明的計算公式(涉及到高等數(shù)學(xué)),如果你能夠前行研讀和深究的話不難發(fā)現(xiàn)一些SEO排名的奧秘所在。

名稱欄目:SEO優(yōu)化難于上青天?HITS鏈接算法助一臂之力
文章轉(zhuǎn)載:http://www.bm7419.com/news20/85920.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、網(wǎng)站導(dǎo)航、用戶體驗企業(yè)網(wǎng)站制作、移動網(wǎng)站建設(shè)、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機(jī)網(wǎng)站建設(shè)