python統(tǒng)計(jì)文本中字頻的方法

python統(tǒng)計(jì)文本中字頻的方法?這個(gè)問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個(gè)問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容,讓我們一起來看看吧!

專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)波密免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了成百上千企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

思路:

是先把每個(gè)字符提出來放在列表里;

再過濾掉其中的標(biāo)點(diǎn)符號(hào);

最后用字典對(duì)某個(gè)字出現(xiàn)的頻率進(jìn)行累加。

下面以芳華這本小說為例:

#coding:utf-8
word_lst = []
word_dict = {}
exclude_str = ",。!?、()<>《》=:+-*—“”…" 
with open("芳華.txt","r") as fileIn ,open("芳華字頻.txt",'w') as fileOut:
    # 添加每一個(gè)字到列表中
    for line in fileIn:
        for char in line:
            word_lst.append(char)
    # 用字典統(tǒng)計(jì)每個(gè)字出現(xiàn)的個(gè)數(shù)       
    for char in word_lst:
        if char not in exclude_str:
            if char.strip() not in word_dict: # strip去除各種空白
                word_dict[char] = 1
            else :
                word_dict[char] += 1
    # 排序
    #   x[1]是按字頻排序,x[0]則是按字排序
    lstWords = sorted(word_dict.items(), key=lambda x:x[1],  reverse=True) 
   
    # 輸出結(jié)果 (前100)
    print ('字符\t字頻')
    print ('=============')
    for e in lstWords[:100]:
        print ('%s\t%d' % e)
        fileOut.write('%s, %d\n' % e)

輸出結(jié)果

字符    字頻
=============
的    3641
一    1834
了    1748
是    1506
不    1267
我    1229
她    1156
他    985
小    962
個(gè)    921
人    866
在    853
劉    745
丁    728
那    723
上    705
來    698
峰    691
們    684
就    667
說    577
有    572
到    564
這    562
里    537
兒    520
嫚    499
子    494
都    492
著    491
大    482
么    462
出    460
看    441
也    415
得    404
下    383
時(shí)    367
還    366
女    349
地    340
頭    331
好    327
沒    326
去    321
過    320
老    317
跟    311
你    309
把    307
對(duì)    303
年    301
會(huì)    300
生    291
為    289
發(fā)    289
要    281
何    280
親    273
后    272
給    267
和    266
天    265
家    259
手    251
長(zhǎng)    251
想    249
多    242
自    241
開    240
當(dāng)    236
兵    235
樣    232
郝    230
可    228
起    225
被    224
成    216
十    215
什    215
以    209
事    209
從    209
點(diǎn)    208
能    203
兩    203
回    202
門    201
所    195
淑    188
雯    188
只    188
心    184
身    184
讓    179
道    179
母    174
做    173
話    173
最    172
>>>

感謝各位的閱讀!看完上述內(nèi)容,你們對(duì)python統(tǒng)計(jì)文本中字頻的方法大概了解了嗎?希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

當(dāng)前標(biāo)題:python統(tǒng)計(jì)文本中字頻的方法
當(dāng)前鏈接:http://bm7419.com/article46/jdedhg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、建站公司App設(shè)計(jì)、關(guān)鍵詞優(yōu)化、標(biāo)簽優(yōu)化靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設(shè)計(jì)