pyhanlp用戶自定義詞典添加實例說明-創(chuàng)新互聯(lián)

pyhanlp用戶自定義詞典添加 實例說明

我們擁有10多年網(wǎng)頁設(shè)計和網(wǎng)站建設(shè)經(jīng)驗,從網(wǎng)站策劃到網(wǎng)站制作,我們的網(wǎng)頁設(shè)計師為您提供的解決方案。為企業(yè)提供成都做網(wǎng)站、成都網(wǎng)站制作、微信開發(fā)、微信小程序開發(fā)、移動網(wǎng)站建設(shè)、H5場景定制、等業(yè)務(wù)。無論您有什么樣的網(wǎng)站設(shè)計或者設(shè)計方案要求,我們都將富于創(chuàng)造性的提供專業(yè)設(shè)計服務(wù)并滿足您的需求。

pyhanlp是python版封裝的的HanLP,項目地址:https://github.com/hankcs/pyhanlp

經(jīng)過測試, HanLP比nltk在中文分詞和實體識別方面都更好用 .

pyhanlp用戶自定義詞典添加實例說明

如何向 pyhanlp添加自定義的詞典?以python 2.7.9為例:

1.安裝pyhanlp:pip install pyhanlp

2.在字典路徑下添加自定義的詞典:CustomDictionary主詞典文本路徑是data/dictionary/custom/CustomDictionary.txt,用戶可以在此增加自己的詞語(不推薦);也可以單獨新建一個文本文件,通過配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的詞典.txt;來追加詞典(推薦)。

具體絕對路徑可用 hanlp --version獲?。?/p>

#hanlp --version

jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建議在該路徑下添加自己的詞典文件例如 我的詞典.txt,并將其加入上面的properties文件里的CustomDictionaryPath下面。

#cat 我的詞典.txt  

codis集群 nz 1000

今日頭條 nz 1000

第一列為詞條,第二列為詞性(默認(rèn)為 n),第三列為詞頻

4.然后需要刪除緩存文件,這樣python才會重新加載新增的文件:

#rm -f CustomDictionary.txt.bin

5.測試新增的詞典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日頭條'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告: 讀取

/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin時發(fā)生異常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (沒有那個文件或目錄)

報這個錯誤沒有關(guān)系,只是個 warning,重新加載緩存文件而已。

備注:

HanLP詞性列表: 詳細(xì)的詞性列表可以查詢 hanlp項目網(wǎng)站上內(nèi)容,更為全面詳細(xì)!

---------------------

作者:明月三千里 68

標(biāo)題名稱:pyhanlp用戶自定義詞典添加實例說明-創(chuàng)新互聯(lián)
網(wǎng)站網(wǎng)址:http://bm7419.com/article10/gdsgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供自適應(yīng)網(wǎng)站網(wǎng)站改版、企業(yè)網(wǎng)站制作動態(tài)網(wǎng)站、網(wǎng)頁設(shè)計公司商城網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司