基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

創(chuàng)新互聯(lián)公司主要從事網(wǎng)頁設(shè)計(jì)、PC網(wǎng)站建設(shè)(電腦版網(wǎng)站建設(shè))、wap網(wǎng)站建設(shè)(手機(jī)版網(wǎng)站建設(shè))、響應(yīng)式網(wǎng)站開發(fā)、程序開發(fā)、網(wǎng)站優(yōu)化、微網(wǎng)站、微信小程序開發(fā)等,憑借多年來在互聯(lián)網(wǎng)的打拼,我們在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、網(wǎng)絡(luò)營銷經(jīng)驗(yàn),集策劃、開發(fā)、設(shè)計(jì)、營銷、管理等多方位專業(yè)化運(yùn)作于一體。

Annie Qi

優(yōu)捷信達(dá)科技研究員

 

在上一篇《網(wǎng)絡(luò)輿情正負(fù)面信息識別的方法》(詳見:http://www.eucita.com/blog)文章中,結(jié)合本人在優(yōu)捷信達(dá)科技(http://www.eucita.com)研究工作,為您詳細(xì)介紹情感分析中與輿情正負(fù)面密切相關(guān)的“極性分類”。本文將延續(xù)上一篇文章的主題,詳細(xì)描述具體的正負(fù)面辨別方式,并分析優(yōu)缺點(diǎn),幫助您了解市場上流行“輿情監(jiān)測”,”口碑監(jiān)測“,“消費(fèi)者調(diào)研”等信息處理系統(tǒng)的工作原理。

首先回顧上一章的介紹,網(wǎng)絡(luò)評價(jià)和信息的正負(fù)面識別,包括優(yōu)捷信達(dá)科技在內(nèi)的技術(shù)領(lǐng)先型輿情口碑監(jiān)測公司,都是通過極性分類(polarity classification)這一步驟來實(shí)現(xiàn),極性分類首先將具有情感傾向的相關(guān)詞語提取出來,叫做“特征提取”(feature extraction)。簡單來說,如何通過計(jì)算機(jī)判別正負(fù)面,就是通過提取句子中的正負(fù)面詞語,通過詞語的正負(fù)面來判斷文章的正負(fù)面傾向。

到目前為止,基于優(yōu)捷信達(dá)科技的研究調(diào)查,目前業(yè)內(nèi)主要特征提取技術(shù)分別是“基于語義”和“基于詞出現(xiàn)及頻率”兩種模式。本文將重點(diǎn)討論基于語義特征的模式,下一章將介紹基于詞的出現(xiàn)及其頻率的模式,并分別討論它們的優(yōu)缺點(diǎn)。

基于語義特征的特征提取模式,也就是根據(jù)詞語表達(dá)的意思,即根據(jù)字面意思來辨析句子所表達(dá)的正負(fù)面。這一方式有三個(gè)重要的代表性方法。分別是:人工建構(gòu)情感詞條的方法;PMI-IR算法(PMI-IR Algorithm)和同義詞與反義詞方法。

 

 

1.  人工建構(gòu)情感詞條

 

Tetsuya Nasukawa和Jeonghee Yi在2003年提出的特征提取的方法就是基于語義分析方法的原型之一。他們通過識別特定主題詞和語氣表達(dá)式之間的語義關(guān)系進(jìn)行傾向性分析,采用自然語言處理技術(shù)分析特定主題和語氣詞之間的語義關(guān)聯(lián)。具體方法如下:

第一步,他們首先手動構(gòu)建了一個(gè)有3513個(gè)詞條的情感詞匯表。字典中每個(gè)詞語都包括情感,詞性標(biāo)記和規(guī)范形式的情感詞,比如(好,詞性標(biāo)記為正面,惡劣,詞性標(biāo)記為負(fù)面)。如果收錄的情感詞是一個(gè)動詞,只要通過這一動詞產(chǎn)生了情感,該動詞的賓語也將會被收錄(比如:優(yōu)捷信達(dá)科技致力于以高科技產(chǎn)品滿足客戶需求。如果“致力于”作為一個(gè)收錄的情感詞并標(biāo)記為正面,那么它所描述的“以高科技產(chǎn)品滿足客戶需求”就被認(rèn)定為正面信息)。

第二步,他們使用了一些計(jì)算機(jī)工具(兩個(gè)PoS-tags和一個(gè)句子結(jié)構(gòu)解析器),可以識別短語邊界和局部依賴性,比如:針對“我喜歡打球!”這個(gè)句子,通過工具可以識別短語邊界為“打球”,“喜歡打球“,”我喜歡打球“,并且還可以分析出“打”的對象是“球”,”喜歡”的對象是”打球”這種短語之間的依賴關(guān)系,針對每一個(gè)句子他們只提取一個(gè)代表性的情感詞,當(dāng)一個(gè)句子中存在多個(gè)情感詞時(shí),這種方式就不夠好用。

第三步,將提取出來的情感詞,放到之前人工構(gòu)建的情感詞典里檢索,找到情感詞典中對應(yīng)的詞語以及它的正負(fù)面極性。這樣就完成了一個(gè)文本片段的情感極性判斷。

通過以上方法,他們實(shí)驗(yàn)的準(zhǔn)確率(精度)大約是75% - 95%,但相對檢索內(nèi)容的查全率(召回率)較低,只有20% - 25%。也就是說,實(shí)驗(yàn)檢索結(jié)果整體是非常準(zhǔn)確的,但是也有大量的數(shù)據(jù)沒有抓取到,查全率較低。

因?yàn)橛衼碜杂谑止ぴO(shè)定的情感詞匯表,這種算法可以分析形容詞、副詞、名詞和動詞的情感極性。此外,他們還能理解否定句和被動句。而且,這種方法不僅可以分析情感正負(fù)面,還可以提取出正負(fù)面所對應(yīng)的主題。

 

然而,這個(gè)系統(tǒng)也有幾個(gè)較為明顯的弱點(diǎn)。首先,這個(gè)系統(tǒng)需要大量的人工操作,當(dāng)需要針對海量數(shù)據(jù)進(jìn)行分析時(shí),人工設(shè)定詞庫的工作量將會非常巨大。第二,盡管它可以解決否定句和被動句,但是在處理更復(fù)雜的句法結(jié)構(gòu),比如雙重否定句時(shí),就有可能發(fā)生誤判。第三,因?yàn)椴槿瘦^低,該系統(tǒng)不能有效地區(qū)分哪些是對客觀事物的描述,哪些是主觀情感的抒發(fā)。導(dǎo)致查全率低的原因是系統(tǒng)的情感詞庫是由人工輸入,而讓人工輸入全部的情感詞是一件不太可能的事情。

 

2. PMI-IR 算法(PMI-IR Algorithm)

 

PMI-IR算法是特尼在2002年設(shè)計(jì)的,與第一種人工建構(gòu)情感詞條的方法相比,它們特征選取方法基本相同,但是它不涉及太多人工手動工作,并且這一方法可以針對整個(gè)篇章進(jìn)行分類,而不是僅僅針對一小段文字,來提取相關(guān)主題的正負(fù)面信息。

 

特尼將PMI-IR算法用于測定詞匯的正負(fù)面傾向性。他評估了410篇評論,獲得了74%的平均精度。他的算法的基本思路是,把情感極性待定的主觀詞提取出來,拿它和兩個(gè)情感極性計(jì)算“詞條距離”。一篇文章最終被歸類為哪個(gè)情感極性,取決于該文章里面所有形容詞性短語和副詞性短語的平均“情感傾向分值SO”(semantic orientation)。

具體步驟如下:

首先,特尼對每篇評論文章,都進(jìn)行詞性標(biāo)注。然后匹配兩個(gè)相鄰詞的詞性標(biāo)簽,如果他們的詞性標(biāo)簽符合一定的規(guī)則(詳細(xì)的規(guī)則表格過于復(fù)雜,在此不進(jìn)行詳細(xì)描述),則提取為一個(gè)情感短語。

第二步,將其中的每個(gè)情感詞都看做一個(gè)可統(tǒng)計(jì)互信息的點(diǎn),然后通過點(diǎn)式互信息的計(jì)算公式計(jì)算出各個(gè)情感詞和參考詞之間的互信息。點(diǎn)式互信息的計(jì)算公式如下所示:

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

第三步,通過下面公式計(jì)算,可以得出一個(gè)詞組”w“的情感傾向分值SO,通過不同的分值,可以判斷為正面或者是負(fù)面,這樣,自動分類過程就做完了。

基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測

特尼的這種算法并不需要任何人工標(biāo)注操作,更為重要的是,由于情感傾向分值SO(w)是一個(gè)數(shù)值,這個(gè)算法不僅能通過數(shù)值的正負(fù)數(shù)來分辨出情感的正負(fù)面,而且可以計(jì)算出情感強(qiáng)度,數(shù)值越高,代表正面情感越強(qiáng)烈。這能很好的幫助客戶評估網(wǎng)絡(luò)輿情正負(fù)面信息的強(qiáng)度。優(yōu)捷信達(dá)科技的網(wǎng)絡(luò)輿情和口碑監(jiān)測采用這一算法進(jìn)行輔助評估輿情強(qiáng)度。

然而,由于這種算法需要計(jì)算機(jī)進(jìn)行大量計(jì)算,需要投入大量的服務(wù)器資源。在特尼論文的結(jié)論部分,他還指出對電影評論的準(zhǔn)確度低于汽車評論。主要原因是,在電影評論中出現(xiàn)的情感表述未必全是針對影片好壞的評價(jià),還有可能是影片情節(jié)中的情感,比如喜劇,悲劇帶來的不同情緒。這其實(shí)是一個(gè)評述對象選擇的問題,特尼的這種方法不能很好的處理評論對象的選擇問題。

 

3. 同義詞與反義詞

 

同義詞和反義詞方法是Minqing Hu和Bing Liu在2004年提出的算法,這種方法會給每一個(gè)通過系統(tǒng)提取出來的主觀評價(jià)句子或者段落賦予一個(gè)情感極性。這種方法將有效地解決了網(wǎng)絡(luò)負(fù)擔(dān)過重的問題。

首先,當(dāng)他們在某一句話中發(fā)現(xiàn)了情感詞,將會通過檢查情感詞數(shù)據(jù)庫(WordNet)來對這個(gè)情感詞進(jìn)行分類,尋找這個(gè)詞的同義詞和反義詞,直到他們找到一個(gè)詞(可能是這個(gè)待定情感詞的同義詞或者反義詞)和這個(gè)詞已知的情感關(guān)系。這樣,新發(fā)現(xiàn)的情感詞就被標(biāo)注為與同義詞相同的情感趨勢、與反義詞相反的情感趨勢。比如,通過系統(tǒng)發(fā)現(xiàn)一個(gè)情感詞“溺愛”,通過數(shù)據(jù)庫尋找,發(fā)現(xiàn)“喜愛”是“溺愛“的同義詞,而數(shù)據(jù)庫中又標(biāo)注了“喜愛”的情感是正面的,那么可得“溺愛”的情感也是正面的。

第二,與之前描述的兩種方法類似,他們還基于句子中出現(xiàn)的情感詞所表達(dá)的情感傾向性,對每一個(gè)句子的極性進(jìn)行分類。整個(gè)句子的語義傾向性是通過簡單的加權(quán)平均,將整個(gè)句子里出現(xiàn)的每一個(gè)情感詞的語義傾向性進(jìn)行計(jì)算而得出。同上例,句子中出現(xiàn)了“溺愛”,沒有出現(xiàn)其他情感詞,那么可以認(rèn)定這個(gè)句子從網(wǎng)絡(luò)輿情來看是正面的。

這種方法的準(zhǔn)確率達(dá)到56% - 79%,查全率(召回率)能達(dá)到67% - 80%。盡管他們只是改進(jìn)了情感詞的抓取算法,而不是情感傾向分值SO的計(jì)算方法,但是他們這種方式不需要完整搜索準(zhǔn)確的詞,而只是通過同義詞和反義詞來判斷正負(fù)面,極大地減輕了網(wǎng)絡(luò)的負(fù)擔(dān)。

 

以上三種方式的運(yùn)行原理很簡單,就是通過計(jì)算機(jī)來辨析相關(guān)詞語的正負(fù)面,然后進(jìn)行統(tǒng)計(jì)。但是這種基于語義的方式存在很多無法徹底解決的問題,且工作量較大、實(shí)驗(yàn)精度和查全率不夠高?;诖耍茖W(xué)界研究出另外一種特征提取方法——基于詞條出現(xiàn)規(guī)律的特征提取方法。這種特征提取方法忽視了詞的語義,而是重點(diǎn)評估出現(xiàn)更高頻率的詞語的情感極性。盡管這種統(tǒng)計(jì)方法看起來不符合我們的直覺,但卻由于在處理復(fù)雜的句法結(jié)構(gòu)甚至復(fù)雜的表達(dá)結(jié)構(gòu)的上佳表現(xiàn),得到了業(yè)界越來越多的關(guān)注。

對于這種不太容易理解但卻表現(xiàn)優(yōu)異的方法,優(yōu)捷信達(dá)科技將在下一章進(jìn)行詳細(xì)描述。您也可以通過訪問網(wǎng)站Http://www.eucita.com了解詳情。

 

當(dāng)前文章:基于語義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測
文章來源:http://bm7419.com/article20/jjeeco.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、電子商務(wù)服務(wù)器托管、定制開發(fā)、動態(tài)網(wǎng)站、全網(wǎng)營銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)