基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

創(chuàng)新互聯(lián)公司主要從事網(wǎng)頁設(shè)計(jì)、PC網(wǎng)站建設(shè)（電腦版網(wǎng)站建設(shè)）、wap網(wǎng)站建設(shè)（手機(jī)版網(wǎng)站建設(shè)）、響應(yīng)式網(wǎng)站開發(fā)、程序開發(fā)、網(wǎng)站優(yōu)化、微網(wǎng)站、微信小程序開發(fā)等，憑借多年來在互聯(lián)網(wǎng)的打拼，我們在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、網(wǎng)絡(luò)營銷經(jīng)驗(yàn)，集策劃、開發(fā)、設(shè)計(jì)、營銷、管理等多方位專業(yè)化運(yùn)作于一體。

Annie Qi

優(yōu)捷信達(dá)科技研究員

在上一篇《網(wǎng)絡(luò)輿情正負(fù)面信息識別的方法》（詳見：http://www.eucita.com/blog）文章中，結(jié)合本人在優(yōu)捷信達(dá)科技（http://www.eucita.com）研究工作，為您詳細(xì)介紹情感分析中與輿情正負(fù)面密切相關(guān)的“極性分類”。本文將延續(xù)上一篇文章的主題，詳細(xì)描述具體的正負(fù)面辨別方式，并分析優(yōu)缺點(diǎn)，幫助您了解市場上流行“輿情監(jiān)測”，”口碑監(jiān)測“，“消費(fèi)者調(diào)研”等信息處理系統(tǒng)的工作原理。

首先回顧上一章的介紹，網(wǎng)絡(luò)評價(jià)和信息的正負(fù)面識別，包括優(yōu)捷信達(dá)科技在內(nèi)的技術(shù)領(lǐng)先型輿情口碑監(jiān)測公司，都是通過極性分類（polarity classification）這一步驟來實(shí)現(xiàn)，極性分類首先將具有情感傾向的相關(guān)詞語提取出來，叫做“特征提取”（feature extraction）。簡單來說，如何通過計(jì)算機(jī)判別正負(fù)面，就是通過提取句子中的正負(fù)面詞語，通過詞語的正負(fù)面來判斷文章的正負(fù)面傾向。

到目前為止,基于優(yōu)捷信達(dá)科技的研究調(diào)查，目前業(yè)內(nèi)主要特征提取技術(shù)分別是“基于語義”和“基于詞出現(xiàn)及頻率”兩種模式。本文將重點(diǎn)討論基于語義特征的模式，下一章將介紹基于詞的出現(xiàn)及其頻率的模式，并分別討論它們的優(yōu)缺點(diǎn)。

基于語義特征的特征提取模式，也就是根據(jù)詞語表達(dá)的意思，即根據(jù)字面意思來辨析句子所表達(dá)的正負(fù)面。這一方式有三個(gè)重要的代表性方法。分別是：人工建構(gòu)情感詞條的方法；PMI-IR算法(PMI-IR Algorithm)和同義詞與反義詞方法。

1. 人工建構(gòu)情感詞條

Tetsuya Nasukawa和Jeonghee Yi在2003年提出的特征提取的方法就是基于語義分析方法的原型之一。他們通過識別特定主題詞和語氣表達(dá)式之間的語義關(guān)系進(jìn)行傾向性分析，采用自然語言處理技術(shù)分析特定主題和語氣詞之間的語義關(guān)聯(lián)。具體方法如下：

第一步，他們首先手動構(gòu)建了一個(gè)有3513個(gè)詞條的情感詞匯表。字典中每個(gè)詞語都包括情感,詞性標(biāo)記和規(guī)范形式的情感詞，比如（好，詞性標(biāo)記為正面，惡劣，詞性標(biāo)記為負(fù)面）。如果收錄的情感詞是一個(gè)動詞,只要通過這一動詞產(chǎn)生了情感，該動詞的賓語也將會被收錄（比如：優(yōu)捷信達(dá)科技致力于以高科技產(chǎn)品滿足客戶需求。如果“致力于”作為一個(gè)收錄的情感詞并標(biāo)記為正面，那么它所描述的“以高科技產(chǎn)品滿足客戶需求”就被認(rèn)定為正面信息）。

第二步,他們使用了一些計(jì)算機(jī)工具（兩個(gè)PoS-tags和一個(gè)句子結(jié)構(gòu)解析器）,可以識別短語邊界和局部依賴性,比如：針對“我喜歡打球！”這個(gè)句子，通過工具可以識別短語邊界為“打球”，“喜歡打球“，”我喜歡打球“，并且還可以分析出“打”的對象是“球”，”喜歡”的對象是”打球”這種短語之間的依賴關(guān)系，針對每一個(gè)句子他們只提取一個(gè)代表性的情感詞，當(dāng)一個(gè)句子中存在多個(gè)情感詞時(shí)，這種方式就不夠好用。

第三步，將提取出來的情感詞，放到之前人工構(gòu)建的情感詞典里檢索，找到情感詞典中對應(yīng)的詞語以及它的正負(fù)面極性。這樣就完成了一個(gè)文本片段的情感極性判斷。

通過以上方法，他們實(shí)驗(yàn)的準(zhǔn)確率（精度）大約是75% - 95%,但相對檢索內(nèi)容的查全率（召回率）較低，只有20% - 25%。也就是說，實(shí)驗(yàn)檢索結(jié)果整體是非常準(zhǔn)確的，但是也有大量的數(shù)據(jù)沒有抓取到，查全率較低。

因?yàn)橛衼碜杂谑止ぴO(shè)定的情感詞匯表，這種算法可以分析形容詞、副詞、名詞和動詞的情感極性。此外,他們還能理解否定句和被動句。而且，這種方法不僅可以分析情感正負(fù)面，還可以提取出正負(fù)面所對應(yīng)的主題。

然而,這個(gè)系統(tǒng)也有幾個(gè)較為明顯的弱點(diǎn)。首先，這個(gè)系統(tǒng)需要大量的人工操作,當(dāng)需要針對海量數(shù)據(jù)進(jìn)行分析時(shí)，人工設(shè)定詞庫的工作量將會非常巨大。第二，盡管它可以解決否定句和被動句,但是在處理更復(fù)雜的句法結(jié)構(gòu)，比如雙重否定句時(shí)，就有可能發(fā)生誤判。第三，因?yàn)椴槿瘦^低，該系統(tǒng)不能有效地區(qū)分哪些是對客觀事物的描述，哪些是主觀情感的抒發(fā)。導(dǎo)致查全率低的原因是系統(tǒng)的情感詞庫是由人工輸入，而讓人工輸入全部的情感詞是一件不太可能的事情。

2. PMI-IR 算法(PMI-IR Algorithm)

PMI-IR算法是特尼在2002年設(shè)計(jì)的，與第一種人工建構(gòu)情感詞條的方法相比，它們特征選取方法基本相同，但是它不涉及太多人工手動工作，并且這一方法可以針對整個(gè)篇章進(jìn)行分類,而不是僅僅針對一小段文字,來提取相關(guān)主題的正負(fù)面信息。

特尼將PMI-IR算法用于測定詞匯的正負(fù)面傾向性。他評估了410篇評論，獲得了74%的平均精度。他的算法的基本思路是，把情感極性待定的主觀詞提取出來，拿它和兩個(gè)情感極性計(jì)算“詞條距離”。一篇文章最終被歸類為哪個(gè)情感極性，取決于該文章里面所有形容詞性短語和副詞性短語的平均“情感傾向分值SO”（semantic orientation）。

具體步驟如下：

首先，特尼對每篇評論文章，都進(jìn)行詞性標(biāo)注。然后匹配兩個(gè)相鄰詞的詞性標(biāo)簽，如果他們的詞性標(biāo)簽符合一定的規(guī)則（詳細(xì)的規(guī)則表格過于復(fù)雜，在此不進(jìn)行詳細(xì)描述），則提取為一個(gè)情感短語。

第二步，將其中的每個(gè)情感詞都看做一個(gè)可統(tǒng)計(jì)互信息的點(diǎn)，然后通過點(diǎn)式互信息的計(jì)算公式計(jì)算出各個(gè)情感詞和參考詞之間的互信息。點(diǎn)式互信息的計(jì)算公式如下所示：

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

第三步，通過下面公式計(jì)算，可以得出一個(gè)詞組”w“的情感傾向分值SO，通過不同的分值，可以判斷為正面或者是負(fù)面，這樣，自動分類過程就做完了。

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

特尼的這種算法并不需要任何人工標(biāo)注操作，更為重要的是，由于情感傾向分值SO（w）是一個(gè)數(shù)值，這個(gè)算法不僅能通過數(shù)值的正負(fù)數(shù)來分辨出情感的正負(fù)面，而且可以計(jì)算出情感強(qiáng)度，數(shù)值越高，代表正面情感越強(qiáng)烈。這能很好的幫助客戶評估網(wǎng)絡(luò)輿情正負(fù)面信息的強(qiáng)度。優(yōu)捷信達(dá)科技的網(wǎng)絡(luò)輿情和口碑監(jiān)測采用這一算法進(jìn)行輔助評估輿情強(qiáng)度。

然而，由于這種算法需要計(jì)算機(jī)進(jìn)行大量計(jì)算，需要投入大量的服務(wù)器資源。在特尼論文的結(jié)論部分，他還指出對電影評論的準(zhǔn)確度低于汽車評論。主要原因是，在電影評論中出現(xiàn)的情感表述未必全是針對影片好壞的評價(jià)，還有可能是影片情節(jié)中的情感，比如喜劇，悲劇帶來的不同情緒。這其實(shí)是一個(gè)評述對象選擇的問題，特尼的這種方法不能很好的處理評論對象的選擇問題。

3. 同義詞與反義詞

同義詞和反義詞方法是Minqing Hu和Bing Liu在2004年提出的算法，這種方法會給每一個(gè)通過系統(tǒng)提取出來的主觀評價(jià)句子或者段落賦予一個(gè)情感極性。這種方法將有效地解決了網(wǎng)絡(luò)負(fù)擔(dān)過重的問題。

首先，當(dāng)他們在某一句話中發(fā)現(xiàn)了情感詞，將會通過檢查情感詞數(shù)據(jù)庫（WordNet）來對這個(gè)情感詞進(jìn)行分類，尋找這個(gè)詞的同義詞和反義詞,直到他們找到一個(gè)詞(可能是這個(gè)待定情感詞的同義詞或者反義詞)和這個(gè)詞已知的情感關(guān)系。這樣，新發(fā)現(xiàn)的情感詞就被標(biāo)注為與同義詞相同的情感趨勢、與反義詞相反的情感趨勢。比如，通過系統(tǒng)發(fā)現(xiàn)一個(gè)情感詞“溺愛”，通過數(shù)據(jù)庫尋找，發(fā)現(xiàn)“喜愛”是“溺愛“的同義詞，而數(shù)據(jù)庫中又標(biāo)注了“喜愛”的情感是正面的，那么可得“溺愛”的情感也是正面的。

第二，與之前描述的兩種方法類似,他們還基于句子中出現(xiàn)的情感詞所表達(dá)的情感傾向性，對每一個(gè)句子的極性進(jìn)行分類。整個(gè)句子的語義傾向性是通過簡單的加權(quán)平均，將整個(gè)句子里出現(xiàn)的每一個(gè)情感詞的語義傾向性進(jìn)行計(jì)算而得出。同上例，句子中出現(xiàn)了“溺愛”，沒有出現(xiàn)其他情感詞，那么可以認(rèn)定這個(gè)句子從網(wǎng)絡(luò)輿情來看是正面的。

這種方法的準(zhǔn)確率達(dá)到56% - 79%,查全率（召回率）能達(dá)到67% - 80%。盡管他們只是改進(jìn)了情感詞的抓取算法，而不是情感傾向分值SO的計(jì)算方法，但是他們這種方式不需要完整搜索準(zhǔn)確的詞，而只是通過同義詞和反義詞來判斷正負(fù)面，極大地減輕了網(wǎng)絡(luò)的負(fù)擔(dān)。

以上三種方式的運(yùn)行原理很簡單，就是通過計(jì)算機(jī)來辨析相關(guān)詞語的正負(fù)面，然后進(jìn)行統(tǒng)計(jì)。但是這種基于語義的方式存在很多無法徹底解決的問題，且工作量較大、實(shí)驗(yàn)精度和查全率不夠高?；诖耍茖W(xué)界研究出另外一種特征提取方法——基于詞條出現(xiàn)規(guī)律的特征提取方法。這種特征提取方法忽視了詞的語義,而是重點(diǎn)評估出現(xiàn)更高頻率的詞語的情感極性。盡管這種統(tǒng)計(jì)方法看起來不符合我們的直覺,但卻由于在處理復(fù)雜的句法結(jié)構(gòu)甚至復(fù)雜的表達(dá)結(jié)構(gòu)的上佳表現(xiàn)，得到了業(yè)界越來越多的關(guān)注。

對于這種不太容易理解但卻表現(xiàn)優(yōu)異的方法，優(yōu)捷信達(dá)科技將在下一章進(jìn)行詳細(xì)描述。您也可以通過訪問網(wǎng)站Http：//www.eucita.com了解詳情。

當(dāng)前文章：基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測
文章來源：http://bm7419.com/article20/jjeeco.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站收錄、電子商務(wù)、服務(wù)器托管、定制開發(fā)、動態(tài)網(wǎng)站、全網(wǎng)營銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容