關(guān)于Python中PyPinyin的用法-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

10年積累的做網(wǎng)站、網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程,更有榮成免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

這篇文章主要介紹關(guān)于Python中PyPinyin的用法,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

最近碰到了一個(gè)問(wèn)題,項(xiàng)目中很多文件都是接手過(guò)來(lái)的中文命名的一些素材,結(jié)果在部署的時(shí)候文件名全都亂碼了,導(dǎo)致項(xiàng)目無(wú)法正常運(yùn)行。

后來(lái)請(qǐng)教了一位大佬怎么解決文件名亂碼的問(wèn)題,他說(shuō)這個(gè)需要正面解決嗎?不需要,把文件名全部改掉,文件名永遠(yuǎn)不要用中文,永遠(yuǎn)不要。

我想他這么說(shuō)的話,一定也是憑經(jīng)驗(yàn)得出來(lái)的。

這里也友情提示大家,項(xiàng)目里面文件永遠(yuǎn)不要用中文,永遠(yuǎn)不要!

好,那不用中文用啥?平時(shí)來(lái)看,一般我們都會(huì)用英文來(lái)命名,一般也不會(huì)出現(xiàn)中文,比如 resource, controller, result, view, spider 等等,所以絕大多數(shù)情況下,是不會(huì)出現(xiàn)什么問(wèn)題的。但是也有個(gè)別的情況,比如一些素材、資源文件可能的中文命名的,那么這時(shí)候該咋辦呢?

首先像,因?yàn)槭侵形馁Y源文件,我們要改成非中文命名的,無(wú)非兩種,一種是英文,一種是拼音。

如果改英文,當(dāng)然可以翻譯、我們想翻譯的話,逐個(gè)人工翻譯成本太高,機(jī)器翻譯的話,翻譯完可能有些文不對(duì)題了,而且我們自己也不知道一些奇怪的資源英語(yǔ)應(yīng)該叫什么,所以到時(shí)候真的找起來(lái)都找不到了。

所以第二種解決方案,那就是拼音了。中文轉(zhuǎn)拼音,很自然,而且一個(gè)字就對(duì)應(yīng)一串拼音,而且也非常容易從拼音看懂是什么意思,所以這確實(shí)是一個(gè)不錯(cuò)的方案。

那么問(wèn)題就來(lái)了,怎樣把一批中文文件轉(zhuǎn)拼音命名呢?下面就讓我們來(lái)了解 Python 的一個(gè)庫(kù) PyPinyin 吧!

概述

Python 中提供了漢字轉(zhuǎn)拼音的庫(kù),名字叫做 PyPinyin,可以用于漢字注音、排序、檢索等等場(chǎng)合,是基于 hotto/pinyin 這個(gè)庫(kù)開(kāi)發(fā)的,一些站點(diǎn)鏈接如下:

GitHub: https://github.com/mozillazg/python-pinyin

文檔:https://pypinyin.readthedocs.io/zh_CN/master/

PyPi:https://pypi.org/project/pypinyin/

它有這么幾個(gè)特性:

·根據(jù)詞組智能匹配最正確的拼音。

·支持多音字。

·簡(jiǎn)單的繁體支持, 注音支持。

·支持多種不同拼音/注音風(fēng)格。

是不是等不及了呢?那就讓我們來(lái)了解一下它的用法吧!

安裝

首先就是這個(gè)庫(kù)的安裝了,通過(guò) pip 安裝即可:

pip3 install pypinyin

安裝完成之后導(dǎo)入一下這個(gè)庫(kù),如果不報(bào)錯(cuò),那就說(shuō)明安裝成功了。

>>> import pypinyin

好,接下來(lái)我們看下它的具體功能。

基本拼音

首先我們進(jìn)行一下基本的拼音轉(zhuǎn)換,方法非常簡(jiǎn)單,直接調(diào)用 pinyin 方法即可:

from pypinyin import pinyin
print(pinyin('中心'))

運(yùn)行結(jié)果:

[['zhōng'], ['xīn']]

可以看到結(jié)果會(huì)是一個(gè)二維的列表,每個(gè)元素都另外成了一個(gè)列表,其中包含了每個(gè)字的讀音。

那么如果這個(gè)詞是多音字咋辦呢?比如 “朝陽(yáng)”,它有兩個(gè)讀音,我們拿來(lái)試下:

from pypinyin import pinyin
print(pinyin('朝陽(yáng)'))

運(yùn)行結(jié)果:

[['zhāo'], ['yáng']]

好吧,它只給出來(lái)了一個(gè)讀音,但是如果我們想要另外一種讀音咋辦呢?

其實(shí)很簡(jiǎn)單,只需添加 heteronym 參數(shù)并設(shè)置為 True 就好了,我們?cè)囅拢?/p>

from pypinyin import pinyin
print(pinyin('朝陽(yáng)', heteronym=True))

運(yùn)行結(jié)果:

[['zhāo', 'cháo'], ['yáng']]

OK 了,這下子就顯示出來(lái)了兩個(gè)讀音了,而且我們也明白了結(jié)果為什么是一個(gè)二維列表,因?yàn)槔锩娴囊痪S的結(jié)果可能是多個(gè),比如多音字的情況就是這樣。

但這個(gè)多少解析起來(lái)有點(diǎn)麻煩,很多情況下我們是不需要管多音字的,我們只是用它來(lái)轉(zhuǎn)換一下名字而已,而處理上面的二維數(shù)組又比較麻煩。

所以有沒(méi)有一個(gè)方法直接給我們一個(gè)一維列表呢?有!

我們可以使用 lazy_pinyin 這個(gè)方法來(lái)生成,嘗試一下:

from pypinyin import lazy_pinyin
print(lazy_pinyin('聰明的小兔子'))

運(yùn)行結(jié)果:

['cong', 'ming', 'de', 'xiao', 'tu', 'zi']

這時(shí)候觀察到得到的是一個(gè)列表,并且不再包含音調(diào)了。

這里我們就有一個(gè)疑問(wèn)了,為啥 pinyin 方法返回的結(jié)果默認(rèn)是帶音調(diào)的,而 lazy_pinyin 是不帶的,這里面就涉及到一個(gè)風(fēng)格轉(zhuǎn)換的問(wèn)題了。

風(fēng)格轉(zhuǎn)換

我們可以對(duì)結(jié)果進(jìn)行一些風(fēng)格轉(zhuǎn)換,比如不帶聲調(diào)風(fēng)格、標(biāo)準(zhǔn)聲調(diào)風(fēng)格、聲調(diào)在拼音之后、聲調(diào)在韻母之后、注音風(fēng)格等等,比如我們想要聲調(diào)放在拼音后面,可以這么來(lái)實(shí)現(xiàn):

from pypinyin import lazy_pinyin, Style
style = Style.TONE3
print(lazy_pinyin('聰明的小兔子', style=style))

運(yùn)行結(jié)果:

['cong1', 'ming2', 'de', 'xiao3', 'tu4', 'zi']

可以看到運(yùn)行結(jié)果每個(gè)拼音后面就多了一個(gè)聲調(diào),這就是其中的一個(gè)風(fēng)格,叫做 TONE3,其實(shí)還有很多風(fēng)格,下面是我從源碼里面找出來(lái)的定義:

#: 普通風(fēng)格,不帶聲調(diào)。如: 中國(guó) -> ``zhong guo``
NORMAL = 0
#: 標(biāo)準(zhǔn)聲調(diào)風(fēng)格,拼音聲調(diào)在韻母第一個(gè)字母上(默認(rèn)風(fēng)格)。如: 中國(guó) -> ``zhōng guó``
TONE = 1
#: 聲調(diào)風(fēng)格2,即拼音聲調(diào)在各個(gè)韻母之后,用數(shù)字 [1-4] 進(jìn)行表示。如: 中國(guó) -> ``zho1ng guo2``
TONE2 = 2
#: 聲調(diào)風(fēng)格3,即拼音聲調(diào)在各個(gè)拼音之后,用數(shù)字 [1-4] 進(jìn)行表示。如: 中國(guó) -> ``zhong1 guo2``
TONE3 = 8
#: 聲母風(fēng)格,只返回各個(gè)拼音的聲母部分(注:有的拼音沒(méi)有聲母,詳見(jiàn) `#27`_)。如: 中國(guó) -> ``zh g``
INITIALS = 3
#: 首字母風(fēng)格,只返回拼音的首字母部分。如: 中國(guó) -> ``z g``
FIRST_LETTER = 4
#: 韻母風(fēng)格,只返回各個(gè)拼音的韻母部分,不帶聲調(diào)。如: 中國(guó) -> ``ong uo``
FINALS = 5
#: 標(biāo)準(zhǔn)韻母風(fēng)格,帶聲調(diào),聲調(diào)在韻母第一個(gè)字母上。如:中國(guó) -> ``ōng uó``
FINALS_TONE = 6
#: 韻母風(fēng)格2,帶聲調(diào),聲調(diào)在各個(gè)韻母之后,用數(shù)字 [1-4] 進(jìn)行表示。如: 中國(guó) -> ``o1ng uo2``
FINALS_TONE2 = 7
#: 韻母風(fēng)格3,帶聲調(diào),聲調(diào)在各個(gè)拼音之后,用數(shù)字 [1-4] 進(jìn)行表示。如: 中國(guó) -> ``ong1 uo2``
FINALS_TONE3 = 9
#: 注音風(fēng)格,帶聲調(diào),陰平(第一聲)不標(biāo)。如: 中國(guó) -> ``ㄓㄨㄥ ㄍㄨㄛˊ``
BOPOMOFO = 10
#: 注音風(fēng)格,僅首字母。如: 中國(guó) -> ``ㄓ ㄍ``
BOPOMOFO_FIRST = 11
#: 漢語(yǔ)拼音與俄語(yǔ)字母對(duì)照風(fēng)格,聲調(diào)在各個(gè)拼音之后,用數(shù)字 [1-4] 進(jìn)行表示。如: 中國(guó) -> ``чжун1 го2``
CYRILLIC = 12
#: 漢語(yǔ)拼音與俄語(yǔ)字母對(duì)照風(fēng)格,僅首字母。如: 中國(guó) -> ``ч г``
CYRILLIC_FIRST = 13

有了這些,我們就可以輕松地實(shí)現(xiàn)風(fēng)格轉(zhuǎn)換了。

好,再回到原來(lái)的問(wèn)題,為什么 pinyin 的方法默認(rèn)帶聲調(diào),而 lazy_pinyin 方法不帶聲調(diào),答案就是:它們二者使用的默認(rèn)風(fēng)格不同,我們看下它的函數(shù)定義就知道了:

pinyin 方法的定義如下:

def pinyin(hans, style=Style.TONE, heteronym=False, errors='default', strict=True)

lazy_pinyin 方法的定義如下:

def lazy_pinyin(hans, style=Style.NORMAL, errors='default', strict=True)

這下懂了吧,因?yàn)?pinyin 方法默認(rèn)使用了 TONE 的風(fēng)格,而 lazy_pinyin 方法默認(rèn)使用了 NORMAL 的風(fēng)格,所以就導(dǎo)致二者返回風(fēng)格不同了。

好了,有了這兩個(gè)函數(shù)的定義,我們?cè)賮?lái)研究下其他的參數(shù),比如定義里面的 errors 和 strict 參數(shù)又怎么用呢?

錯(cuò)誤處理

在這里我們先做一個(gè)測(cè)試,比如我們傳入無(wú)法轉(zhuǎn)拼音的字,比如:

from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆,我是xxx'))

其中包含了星號(hào)兩個(gè),還有標(biāo)點(diǎn)一個(gè),另外還包含了一個(gè) xxx 英文字符,結(jié)果會(huì)是什么呢?

['ni', 'hao', '☆☆,', 'wo', 'shi', 'xxx']

可以看到結(jié)果中星號(hào)和英文字符都作為一個(gè)整體并原模原樣返回了。

那么這種特殊字符可以單獨(dú)進(jìn)行處理嗎?當(dāng)然可以,這里就用到剛才提到的 errors 參數(shù)了。

errors 參數(shù)是有幾種模式的:

·default:默認(rèn)行為,不處理,原木原樣返回;

·ignore:忽略字符,直接拋掉;

·replace:直接替換為去掉 u 的 unicode 編碼;

·callable 對(duì)象:當(dāng)傳入一個(gè)可調(diào)用的對(duì)象的時(shí)候,則可以自定義處理方式。

下面是 errors 這個(gè)參數(shù)的源碼實(shí)現(xiàn)邏輯:

def _handle_nopinyin_char(chars, errors='default'):
    """處理沒(méi)有拼音的字符"""
    if callable_check(errors):
        return errors(chars)
    if errors == 'default':
        return chars
    elif errors == 'ignore':
        return None
    elif errors == 'replace':
        if len(chars) > 1:
            return ''.join(text_type('%x' % ord(x)) for x in chars)
        else:
            return text_type('%x' % ord(chars))

當(dāng)處理沒(méi)有拼音的字符的時(shí)候,errors 的不同參數(shù)會(huì)有不同的處理結(jié)果,更詳細(xì)的邏輯可以翻看源碼。

好了,下面我們來(lái)嘗試一下,比如我們想將不能轉(zhuǎn)拼音的字符去掉,則可以這么設(shè)置:

from pypinyin import lazy_pinyin
print(lazy_pinyin('你好☆☆,我是xxx', errors='ignore'))

運(yùn)行結(jié)果:

['ni', 'hao', 'wo', 'shi']

如果我們想要自定義處理,比如把 ☆ 轉(zhuǎn)化為 ※,則可以這么設(shè)置:

print(lazy_pinyin('你好☆☆,我是xxx', errors=lambda item: ''.join(['※' if c == '☆' else c for c in item])))

運(yùn)行結(jié)果:

['ni', 'hao', '※※,', 'wo', 'shi', 'xxx']

如上便是一些相關(guān)異常處理的操作,我們可以隨心所欲地處理自己想處理的字符了。

嚴(yán)格模式

最后再看下 strict 模式,這個(gè)參數(shù)用于控制處理聲母和韻母時(shí)是否嚴(yán)格遵循 《漢語(yǔ)拼音方案》 標(biāo)準(zhǔn)。

下面的一些說(shuō)明來(lái)源于官方文檔:

當(dāng) strict 參數(shù)為 True 時(shí)根據(jù) 《漢語(yǔ)拼音方案》 的如下規(guī)則處理聲母、在韻母相關(guān)風(fēng)格下還原正確的韻母:

21 個(gè)聲母: b p m f d t n l g k h j q x zh ch sh r z c s (y, w 不是聲母)

i行的韻母,前面沒(méi)有聲母的時(shí)候,寫成yi(衣),ya(呀),ye(耶),yao(腰),you(憂),yan(煙), yin(因),yang(央),ying(英),yong(雍)。(y 不是聲母)

u行的韻母,前面沒(méi)有聲母的時(shí)候,寫成wu(烏),wa(蛙),wo(窩),wai(歪),wei(威),wan(彎), wen(溫),wang(汪),weng(翁)。(w 不是聲母)

ü行的韻母,前面沒(méi)有聲母的時(shí)候,寫成yu(迂),yue(約),yuan(冤),yun(暈);ü上兩點(diǎn)省略。(韻母相關(guān)風(fēng)格下還原正確的韻母 ü)

ü行的韻跟聲母j,q,x拼的時(shí)候,寫成ju(居),qu(區(qū)),xu(虛),ü上兩點(diǎn)也省略; 但是跟聲母n,l拼的時(shí)候,仍然寫成nü(女),lü(呂)。(韻母相關(guān)風(fēng)格下還原正確的韻母 ü)

iou,uei,uen前面加聲母的時(shí)候,寫成iu,ui,un。例如niu(牛),gui(歸),lun(論)。(韻母相關(guān)風(fēng)格下還原正確的韻母 iou,uei,uen)

當(dāng) strict 為 False 時(shí)就是不遵守上面的規(guī)則來(lái)處理聲母和韻母, 比如:y, w 會(huì)被當(dāng)做聲母,yu(迂) 的韻母就是一般認(rèn)為的 u 等。

具體差異可以查看源碼中 tests/test_standard.py 中的對(duì)比結(jié)果測(cè)試用例。

自定義拼音

如果對(duì)庫(kù)返回的結(jié)果不滿意,我們還可以自定義自己的拼音庫(kù),這里用到的方法就有 load_single_dict 和 load_phrases_dict 方法了。

比如剛才我們看到 “朝陽(yáng)” 兩個(gè)字的發(fā)音默認(rèn)返回的是 zhao yang,我們想默認(rèn)返回 chao yang,那可以這么做:

from pypinyin import lazy_pinyin, load_phrases_dict
print(lazy_pinyin('朝陽(yáng)'))
personalized_dict = {
    '朝陽(yáng)': [['cháo'], ['yáng']]
}
load_phrases_dict(personalized_dict)
print(lazy_pinyin('朝陽(yáng)'))

這里我們自定義了一個(gè)詞典,然后使用 load_phrases_dict 方法設(shè)置了一下就可以了。

運(yùn)行結(jié)果:

['zhao', 'yang']
['chao', 'yang']

這樣就可以完成自定義的設(shè)置了。

在一些項(xiàng)目里面我們可以自定義很多拼音庫(kù),然后加載就可以了。

另外我們還可以注冊(cè)樣式實(shí)現(xiàn)自定義,比如將某個(gè)拼音前面加上 Emoji 表情,樣例:

from pypinyin.style import register
from pypinyin import lazy_pinyin
@register('kiss')
def kiss(pinyin, **kwargs):
    if pinyin == 'me':
        return f'?{pinyin}'
    return pinyin
print(lazy_pinyin('么么噠', style='kiss'))

運(yùn)行結(jié)果:

['?me', '?me', 'dá']

這里我們調(diào)用 register 方法注冊(cè)了一個(gè)樣式 style,然后轉(zhuǎn)換的時(shí)候指定即可,通過(guò)觀察運(yùn)行結(jié)果我們可以發(fā)現(xiàn),這樣我們就可以將 me 字的拼音前面加上 ? 這個(gè) Emoji 表情了。

以上是關(guān)于Python中PyPinyin的用法的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道!

網(wǎng)站標(biāo)題:關(guān)于Python中PyPinyin的用法-創(chuàng)新互聯(lián)
文章分享:http://www.bm7419.com/article10/dgcigo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、App開(kāi)發(fā)品牌網(wǎng)站建設(shè)、網(wǎng)站營(yíng)銷App設(shè)計(jì)、品牌網(wǎng)站設(shè)計(jì)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

營(yíng)銷型網(wǎng)站建設(shè)