TF-IDF中文分詞算法總結(jié)

2016-08-16    分類: 網(wǎng)站建設(shè)

TF-IDF介紹:

TFIDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率(TF)高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類、做為內(nèi)容的關(guān)鍵字,或者做為文章的主題詞。

名詞解釋:

TF IDF實際上是:TF * IDF
TF詞頻(Term Frequency)
IDF逆向文件頻率(Inverse Document Frequency)。

TF-IDF的應用:

TF表示詞條在文檔中出現(xiàn)的頻率。
IDF的主要含義是:如果包含詞條的文檔越少,IDF越大。
TF值較大,同時IDF值也較大,這樣的詞條應該給它們賦予較高的權(quán)重,并選來作為該類文本的特征詞以區(qū)別與其它類文檔,即核心關(guān)鍵詞!

TF-IDF對SEO的意義:

如果你的網(wǎng)頁標題和內(nèi)容,通過TF-IDF計算到的核心關(guān)鍵字,正好是你想優(yōu)化的詞,那么,你的網(wǎng)頁獲得較好排名的機會就會大大增加。
反之,如果你想優(yōu)化的詞并不是網(wǎng)頁的真正核心關(guān)鍵字,那么,要獲得好的排名,則需要更多的其它方面的努力。

10個人有9個人不知道中文分詞,也這是很多做SEO的硬傷,如果連最基本的搜索引擎中文分詞技術(shù)算法都不知道,只能用一句摸著石頭過河來形容了。深度了解百度中文技術(shù)可以讓搜索引擎排名變得簡單化,清晰化。那么如何理解中文分詞技術(shù)是本文的核心課點。首先在了解百度中文技術(shù)以前要了解一個語義分析系統(tǒng),搜索引擎不像人的大腦一樣可以很直接的通用意識行為來判別一個網(wǎng)頁的核心主題。

比如我們作為一個用戶看到一篇文章叫做我的父親,對于用戶而言,你最直觀的感覺的就是該網(wǎng)頁文章的核心關(guān)鍵詞就是父親,絕對不是我或者的,之所以有這種感覺那是因為所謂用戶來思考,父親是一個名詞,我是代詞,的是助詞。但是對于搜索引擎本身來講它是不可能像人的大腦一樣思考這個意識來決定網(wǎng)頁核心主題的,對于中國人來說,語義分析和詞性則是搜索引擎利用區(qū)別網(wǎng)頁核心關(guān)鍵詞的主要方式,比如我們都知道中文有名詞、形容詞、動詞、介詞、副詞等等。并且不同的詞性他的含義和作用也完全不一樣,那么搜索引擎如何借助詞性來判斷關(guān)鍵詞的核心主題呢?

如果我們從大范圍來講,一個網(wǎng)頁的主題包含的關(guān)鍵詞不少,但是真正有價值的關(guān)鍵詞其實就那么幾個,并且這些有價值的詞我們暫且稱為核心關(guān)鍵詞。從詞性來看,多數(shù)這些有價值的詞均為名詞形態(tài),如果不了解該詞到底屬于什么關(guān)鍵詞詞性可以通過語義分析系統(tǒng)去識別(也可以對照一下自己網(wǎng)站的關(guān)鍵詞,核心詞絕對是以名詞為主。

一般來說,核心關(guān)鍵詞定位多數(shù)都是名詞+動詞,或者名詞+形容詞,比如小明在奔跑,該標題對于用戶來說,都知道核心關(guān)鍵詞是小明,沒了小明奔跑就沒有任何價值了。但是對于搜索引擎來說肯定不理解,從上面我們所講到的分詞原理,可以了解到該詞的核心關(guān)鍵詞也是小明,因為小明是名詞,奔跑是動詞,也叫做名+動。當然定位核心關(guān)鍵詞的首要條件是必須是詞性的頻次相等的情況下才會優(yōu)先將名詞定位核心關(guān)鍵詞,比如漂亮_漂亮同義詞_漂亮的含義,雖然該標題里面漂亮是形容詞,并且也包含了其他名詞,但是為何核心詞是漂亮而不是其他名詞,因為頻次相同才會將名詞定位核心詞,頻次不相同優(yōu)先將頻次大的關(guān)鍵詞定位核心關(guān)鍵詞。

TF-IDF分詞算法總結(jié):

1、網(wǎng)頁關(guān)鍵詞通過標點符合進行分詞處理,雖然這個板塊大多數(shù)SEO人都知道操作,但是由于你符號用的越多,導致網(wǎng)頁的分詞越廣,最終主題不集中。比如:SEO_SEO培訓_SEO教程_SEO優(yōu)化,這種就是分詞大忌,看起來都是分了4個詞,其實沒有一個集中的,如果要最集中也就是SEO這個詞了。

2、網(wǎng)頁內(nèi)容不管是更新新聞還是更新產(chǎn)品都要圍繞標題的核心詞去做,當然并不是要你去堆砌關(guān)鍵詞,搜索引擎是有分詞算法的,即使你網(wǎng)頁體現(xiàn)培訓這個詞,搜索引擎也一樣認為是關(guān)聯(lián)性非常強的,不一定非得把SEO培訓完全體現(xiàn)。

3、整個網(wǎng)頁與標題要保持一定的詞控分布,簡單說就是可以借助百度指數(shù)的需求圖譜來進行詞的擴展,也算是滿足了搜索引擎對于網(wǎng)頁的一種相關(guān)性計算,這種相關(guān)性計算會直接計算網(wǎng)頁質(zhì)量打分在里面。雖然有很多垃圾網(wǎng)站頁面沒有任何相關(guān)性,百度一樣給予很好的排名,但是仔細去看,這種操作排名非常難穩(wěn)定,而往往相關(guān)性強的網(wǎng)頁排名穩(wěn)定性更高。

網(wǎng)站題目:TF-IDF中文分詞算法總結(jié)
轉(zhuǎn)載注明:http://www.bm7419.com/news/45672.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、手機網(wǎng)站建設(shè)、ChatGPT、關(guān)鍵詞優(yōu)化Google、移動網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

手機網(wǎng)站建設(shè)