自然語言處理技術(shù)之HanLP介紹-創(chuàng)新互聯(lián)

這段時(shí)間一直在接觸學(xué)習(xí)hadoop方面的知識(shí),所以說對(duì)自然語言處理技術(shù)也是做了一些了解。網(wǎng)絡(luò)上關(guān)于自然語言處理技術(shù)的分享文章很多,今天就給大家分享一下HanLP方面的內(nèi)容。
自然語言處理技術(shù)其實(shí)是所有與自然語言的計(jì)算機(jī)處理相關(guān)聯(lián)的技術(shù)的統(tǒng)稱,自然語言處理技術(shù)應(yīng)用的目的是為了能夠讓計(jì)算機(jī)理解和接收我們用自然語言輸入的指令,實(shí)現(xiàn)從將我們?nèi)祟惖恼Z言翻譯成計(jì)算機(jī)能夠理解的并且不會(huì)產(chǎn)生歧義的一種語言。接合目前的大數(shù)據(jù)以及人工智能,自然語言處理技術(shù)的快速發(fā)展能夠很好的助力人工智能的發(fā)展。
自然語言處理技術(shù)之HanLP介紹
(大快DKhadoop一體化開發(fā)框架)
這里要分享的HanLP是我在學(xué)習(xí)使用大快DKhadoop大數(shù)據(jù)一體化平臺(tái)時(shí)使用到的自然語言處理技術(shù),使用這個(gè)組建可以很高效的進(jìn)行自然語言的處理工作,比如進(jìn)行文章摘要,語義判別以及提高內(nèi)容檢索的精確度和有效性等。
本想找個(gè)通俗的案例來介紹一下HanLP,一時(shí)間也沒想到什么好的案例,索性就從HanLp數(shù)據(jù)結(jié)構(gòu)HE 分詞簡單介紹下吧。
首先我們來看了解下HanLP的數(shù)據(jù)結(jié)構(gòu):
二分tire樹:Tire樹是一種前綴壓縮結(jié)構(gòu),可以壓縮存大量字符串,并提供速度高于Map的get操作。HanLP中的trie樹采用有序數(shù)組儲(chǔ)存子節(jié)點(diǎn),通過二分搜索算法檢索,可以提供比TreeMap更快的查詢速度。
不同于父節(jié)點(diǎn)儲(chǔ)存子節(jié)點(diǎn)引用的普通trie樹,雙數(shù)組trie樹將節(jié)點(diǎn)的從屬關(guān)系轉(zhuǎn)化為字符內(nèi)碼的加法與校驗(yàn)操作
對(duì)于一個(gè)接收字符c從狀態(tài)s移動(dòng)到t的轉(zhuǎn)移,需滿足條件是:
base[s] + c = t
check[t] = s比如:base[一號(hào)] + 店 = 一號(hào)店
check[一號(hào)店] = 一號(hào)
相較于trie樹的前綴壓縮(success表),AC自動(dòng)機(jī)還實(shí)現(xiàn)了后綴壓縮(output表)
在匹配失敗時(shí),AC自動(dòng)機(jī)會(huì)跳轉(zhuǎn)到最可能成功的狀態(tài)(fail指針)
關(guān)于HanLP分詞
1、詞典分詞
基于雙數(shù)組trie樹或ACDAT的詞典最長分詞(即從詞典中找出所有可能的詞,順序選擇最長的詞語)
自然語言處理技術(shù)之HanLP介紹
輸出:[HanLP/名詞, 是不是/null, 特別/副詞, 方便/形容詞, ?/null]
2、NGram分詞
自然語言處理技術(shù)之HanLP介紹
統(tǒng)計(jì)語料庫中的BiGram,根據(jù)轉(zhuǎn)移概率,選出最可能的句子,達(dá)到排除歧義的目的
3、HMM2分詞
自然語言處理技術(shù)之HanLP介紹
這是一種由字構(gòu)詞的生成式模型,由二階隱馬模型提供序列標(biāo)注

我們提供的服務(wù)有:成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、微信公眾號(hào)開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、敘州ssl等。為1000多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的敘州網(wǎng)站制作公司

被稱為TnT Tagger,特點(diǎn)是利用低階事件平滑高階事件,彌補(bǔ)高階模型的數(shù)據(jù)稀疏問題
4、CRF分詞
自然語言處理技術(shù)之HanLP介紹
這是一種由字構(gòu)詞的生成式模型,由CRF提供序列標(biāo)注
相較于HMM,CRF的優(yōu)點(diǎn)是能夠利用更多特征、對(duì)OOV分詞效果好,缺點(diǎn)是占內(nèi)存大、解碼慢。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

新聞名稱:自然語言處理技術(shù)之HanLP介紹-創(chuàng)新互聯(lián)
本文來源:http://bm7419.com/article32/didhsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站品牌網(wǎng)站設(shè)計(jì)、網(wǎng)站維護(hù)靜態(tài)網(wǎng)站、小程序開發(fā)、虛擬主機(jī)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)