關(guān)于百度去重原理的最新定義

2021-08-16    分類(lèi): 網(wǎng)站建設(shè)

在一般的搜索引擎架構(gòu)中,網(wǎng)頁(yè)去重一般在Spider抓取部分就存在了,“去重”步驟在整個(gè)搜索引擎架構(gòu)中實(shí)施得越早,越可以節(jié)約后續(xù)處理系統(tǒng)的資源使用。搜索引擎一般會(huì)對(duì)已經(jīng)抓取過(guò)的重復(fù)頁(yè)面進(jìn)行歸類(lèi)處理,比如,判斷某個(gè)站點(diǎn)是否包含大量的重復(fù)頁(yè)面,或者該站點(diǎn)是否完全采集其他站點(diǎn)的內(nèi)容等,以決定以后對(duì)該站點(diǎn)的抓取情況或是否直接屏蔽抓取。
去重的工作一般會(huì)在分詞之后和索引之前進(jìn)行(也有可能在分詞之前),搜索引擎會(huì)在頁(yè)面已經(jīng)分出的關(guān)鍵詞中,提取部分具有代表性的關(guān)鍵詞,然后計(jì)算這些關(guān)鍵詞的“指紋”。每一個(gè)網(wǎng)頁(yè)都會(huì)有個(gè)這樣的特征指紋,當(dāng)新抓取的網(wǎng)頁(yè)的關(guān)鍵詞指紋和已索引網(wǎng)頁(yè)的關(guān)鍵詞指紋有重合時(shí),那么該新網(wǎng)頁(yè)就可能會(huì)被搜索引擎視為重復(fù)內(nèi)容而放棄索引。
實(shí)際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關(guān)鍵詞,還會(huì)使用連續(xù)切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計(jì)算。連續(xù)切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計(jì)算,連切割就是以單個(gè)字向后移動(dòng)的方式進(jìn)行切割就是單個(gè)字向后移動(dòng)的方式進(jìn)行切詞,比如,“百度開(kāi)始打擊買(mǎi)賣(mài)鏈接”會(huì)被切成“百度開(kāi)”“度開(kāi)始”“開(kāi)始打”“始打擊”“打擊買(mǎi)”“擊買(mǎi)賣(mài)”“買(mǎi)賣(mài)鏈”“賣(mài)鏈接”。然后從這些詞中提取部分關(guān)鍵詞進(jìn)行指紋計(jì)算,參與是否重復(fù)內(nèi)容的對(duì)比。這只是搜索引擎識(shí)別重復(fù)網(wǎng)頁(yè)的基本算法,還有很多其他對(duì)付重復(fù)網(wǎng)頁(yè)的算法。
因此網(wǎng)絡(luò)上流行的大部分偽原創(chuàng)工具,不是不能欺騙搜索引擎,就是把內(nèi)容做的鬼都讀不通,所以理論上使用普通偽原創(chuàng)工具不能得到搜索引擎的正常收錄和排名。但是由于百度并不是對(duì)所有的重復(fù)頁(yè)面都直接拋棄不索引,而是會(huì)根據(jù)重復(fù)網(wǎng)頁(yè)所在網(wǎng)站的權(quán)重適當(dāng)放寬索引標(biāo)準(zhǔn),這樣使得部分作弊者有機(jī)可乘,利用網(wǎng)站的高權(quán)重,大量采集其他站點(diǎn)的內(nèi)容獲取搜索流量。不過(guò)自2012年6月份以來(lái),百度搜索多次升級(jí)算法,對(duì)采集重復(fù)信息、垃圾頁(yè)面進(jìn)行了多次重復(fù)級(jí)的打擊。所以SEO在面對(duì)網(wǎng)站內(nèi)容時(shí),不應(yīng)該再以偽原創(chuàng)的角度去建設(shè),而需要以對(duì)用戶(hù)有用的角度去建設(shè),雖然后者的內(nèi)容不一定全部是原創(chuàng),一般如果網(wǎng)站權(quán)重沒(méi)有大問(wèn)題,都會(huì)得到健康的發(fā)展。關(guān)于原創(chuàng)問(wèn)題,本書(shū)后續(xù)會(huì)在第12章進(jìn)行詳細(xì)討論。
另外,不僅僅是搜索引擎需要“網(wǎng)頁(yè)去重”,自己做網(wǎng)站也需要對(duì)站內(nèi)頁(yè)面進(jìn)行去重。比如分類(lèi)信息、B2B平臺(tái)等UGC類(lèi)的網(wǎng)站,如果不加以限制,用戶(hù)所發(fā)布的信息必然會(huì)有大量的重復(fù),這樣不僅在SEO方面表現(xiàn)不好,站內(nèi)用戶(hù)體驗(yàn)也會(huì)降低很多。有如SEO人員在設(shè)計(jì)流量產(chǎn)品常見(jiàn)的一般為以“聚合”為基礎(chǔ)的索引頁(yè)、專(zhuān)題頁(yè)或目錄頁(yè),“聚合”就必須有核心詞,不加以過(guò)濾,海量核心詞所擴(kuò)展出來(lái)的頁(yè)面就可能會(huì)有大量重復(fù),從而導(dǎo)致該產(chǎn)品效果不佳,甚至?xí)虼吮凰阉饕娼禉?quán)。
“去重”算法的大概原理一般就是如上所述,有興趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具體算法。搜索引擎在做“網(wǎng)頁(yè)去重”工作之前首先要分析網(wǎng)頁(yè),內(nèi)容周?chē)?ldquo;噪聲”對(duì)去重結(jié)果多少會(huì)有影響,做這部分工作時(shí)只對(duì)內(nèi)容部分操作就可以了,相對(duì)來(lái)說(shuō)會(huì)簡(jiǎn)單很多,并且可以很有效地輔助產(chǎn)出高質(zhì)量的“SEO產(chǎn)品”。作為SEO人員只要了解實(shí)現(xiàn)原理就可以了,具體在產(chǎn)品中的應(yīng)用,需要技術(shù)人員來(lái)實(shí)現(xiàn)。此外還涉及效率、資源需求等問(wèn)題,并且根據(jù)實(shí)際情況“去重”工作也可以在多個(gè)環(huán)節(jié)進(jìn)行(比如對(duì)核心詞的分詞環(huán)節(jié)),SEO人員只要稍微了解一些原理,能夠?yàn)榧夹g(shù)人員建議幾個(gè)方向就很不錯(cuò)了(技術(shù)人員并不是萬(wàn)能的,也有不熟悉、不擅長(zhǎng)的領(lǐng)域,在特定時(shí)刻也需要?jiǎng)e人提供思路)。如果SEO人員能在這些方面和技術(shù)人員進(jìn)行深入的交流,技術(shù)人員也會(huì)對(duì)SEO另眼相看,至少不會(huì)再認(rèn)為“SEO人員就只會(huì)修改標(biāo)題、改鏈接、改文字之類(lèi)‘無(wú)聊’的需求”了。
總結(jié):在次感謝痞子瑞的怎么好的書(shū)本,妮子在SEO思維中,找到新的知識(shí),去重,指紋原理。希望兄弟姐妹們可以去看看這本書(shū),今天給大家分享一部分吧!往后的日子,看到好的知識(shí)點(diǎn),會(huì)繼續(xù)和大家分享了。

網(wǎng)站名稱(chēng):關(guān)于百度去重原理的最新定義
網(wǎng)站路徑:http://www.bm7419.com/news31/122331.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)、定制開(kāi)發(fā)、網(wǎng)站維護(hù)、小程序開(kāi)發(fā)、網(wǎng)站排名搜索引擎優(yōu)化

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化