在Python中使用JSON時的注意事項-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務(wù)器提供商,新人活動買多久送多久,劃算不套路!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、重慶小程序開發(fā)、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了臨沭免費建站歡迎大家使用!

這篇文章主要介紹在Python中使用JSON時的注意事項,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

在 Python 中使用 JSON 時需要注意的編碼問題

寫這篇文章的緣由是我使用 reqeusts 庫請求接口的時候, 直接使用請求參數(shù)里的 json 字段發(fā)送數(shù)據(jù), 但是服務(wù)器無法識別我發(fā)送的數(shù)據(jù), 

排查了好久才知道 requests 內(nèi)部是使用 json.dumps 將字符串轉(zhuǎn)成 json 的, 而 json.dumps 默認情況下會將 非ASCII 字符轉(zhuǎn)義, 也就是

我發(fā)送數(shù)據(jù)中的中文被轉(zhuǎn)義了, 所以服務(wù)器無法識別. 這篇文章雖然是 json.dumps 問題的總結(jié), 但也會涉及到 字符編碼 問題, 所以就簡單

先說一下 字符編碼.

Python 中的字符編碼

在 Python3 中, 字符 在內(nèi)存中是使用 Unicode 存儲的, 常規(guī)的字符使用 兩個字節(jié) 表示, 一些很生僻的字符就需要 四個字節(jié). 默認使用 

Unicode 存儲是什么意思呢, 那就是例子來解釋一下, 在 Python Shell 中輸入以下字符串 '\u4e2d\u6587', 觀察其輸出:

In [51]: '\u4e2d\u6587'
Out[51]: '中文'

輸出的為 中文 兩個字. 其實 \u4e2d 和 \u6587 分別表示 中 和 文 的 Unicode 編碼(術(shù)語稱為 碼點)的 十六進制 表示, 在 Python3 中

以 \u 開頭的字符串被解析為 Unicode 字符, 然后通過其十六進制 碼點 解析出具體的字符, 所以 中文 的內(nèi)存表示即為 \u4e2d\u6587.

獲取字符 Unicode 碼點

標準庫提供了 ord 函數(shù)獲取一個字符的 Unicode 碼點, 使用 chr 函數(shù)將 碼點 轉(zhuǎn)換成 字符, 下面是示例:

In [54]: ord('中')
Out[54]: 20013

In [56]: chr(20013)
Out[56]: '中'

輸出的 碼點 是使用 十進制 表示的, 可以使用以下代碼將十進制數(shù)字格式化成十六進制字符串:

'{0:04x}'.format(20013)

使用 json.dumps

有了前面的鋪墊, 就可以來說說 json.dumps 了. 下面以一個例子展開:

In [121]: json.dumps('中文', ensure_ascii=True)
Out[121]: '"\\u4e2d\\u6587"'

In [122]: json.dumps('中文', ensure_ascii=False)
Out[122]: '"中文"'

可以看到, 在 ensure_ascii 為 True 的情況下, 中文 被編碼成了 Unicode 碼, 為 False 才能正常顯示, 但參數(shù)名為什么叫 ensure_ascii 呢? 

來看一下 官方文檔 對這個參數(shù)的解釋:

如果 ensure_ascii 是 true (即默認值),輸出保證將所有輸入的非 ASCII 字符轉(zhuǎn)義。如果 ensure_ascii 是 false,這些字符會
原樣輸出。

現(xiàn)在稍微明白了, 在 ensure_ascii 為 True 的情況下, 如果字符串中存在 非ASCII 字符就將其轉(zhuǎn)義, 根據(jù)結(jié)果可以知道這個字符被轉(zhuǎn)義為 

Unicode 編碼并格式化成了一個字符串, 注意 "\\u4e2d\\u6587" 與 "\u4e2d\u6587" 是不同的, 前者是長度為 12 的字符串, 后者則會被 

Python 直接解析為 中文, 長度為 2. 這也就是我一開始出現(xiàn)的問題, 直接將轉(zhuǎn)義的字符串在網(wǎng)絡(luò)上傳輸可能會無法被識別. 比如 中文 被轉(zhuǎn)

義成 \\u4e2d\\u6587, 而服務(wù)器如果不知道它是被轉(zhuǎn)義過的字符串, 那它就是一個長度為 12 的普通字符串, 肯定會識別出錯. 而將 

ensure_ascii 設(shè)為 False 就不會進行轉(zhuǎn)義, 使用原始字符.

識別轉(zhuǎn)義字符

如果服務(wù)器收到數(shù)據(jù)后發(fā)現(xiàn)是被轉(zhuǎn)化過的, 那怎么識別呢? 其實被轉(zhuǎn)義字符串與使用 unicode_escape 對字符串進行編碼再使用 utf-8 進

行解碼的結(jié)果一致, 代碼如下:

In [129]: msg
Out[129]: '中文'

In [130]: msg.encode('unicode_escape').decode('utf-8')
Out[130]: '\\u4e2d\\u6587'

所以識別只要反過來使用 utf-8 編碼再使用 unicode_escape 解碼就可以了.

轉(zhuǎn)義是如何進行的

現(xiàn)在來看一下 json.dumps 到底是怎么對字符進行轉(zhuǎn)義的. 在 json.dumps 源碼中仔細調(diào)試的話會發(fā)現(xiàn), 它調(diào)用的是 

JSONEncoder.encode 方法, 而 encode 中的代碼片段如下:

if self.ensure_ascii:
    return encode_basestring_ascii(o)
else:
    return encode_basestring(o)

它會根據(jù) ensure_ascii 的值選擇調(diào)用函數(shù). 而 encode_basestring_ascii 的值是 (c_encode_basestring_ascii or 

py_encode_basestring_ascii), 也就是默認是用 C 實現(xiàn)的版本, 其次使用 Python 實現(xiàn)的版本, 既然有 Python 版本, 當然要看一下是怎么

實現(xiàn)的, py_encode_basestring_ascii 可以直接使用 from json.encoder import py_encode_basestring_ascii 導(dǎo)入, 直接在其內(nèi)部就可

以調(diào)試. 下面是其源碼:

def py_encode_basestring_ascii(s):
    """Return an ASCII-only JSON representation of a Python string

    """
    def replace(match):
        s = match.group(0)
        try:
            return ESCAPE_DCT[s]
        except KeyError:
            n = ord(s)
            if n < 0x10000:
                return '\\u{0:04x}'.format(n)
                #return '\\u%04x' % (n,)
            else:
                # surrogate pair
                n -= 0x10000
                s1 = 0xd800 | ((n >> 10) & 0x3ff)
                s2 = 0xdc00 | (n & 0x3ff)
                return '\\u{0:04x}\\u{1:04x}'.format(s1, s2)
    return '"' + ESCAPE_ASCII.sub(replace, s) + '"'

從最后的 return 可以看到它實際上是 正則匹配替換 然后在前后添加 雙引號. ESCAPE_ASCII 的定義如下:

ESCAPE_ASCII = re.compile(r'([\\"]|[^\ -~])')

其中 ([\\"] 用于匹配 \\ 和 ", 而 [^\ -~] 表示 \ -~ 取反(這里的反斜杠貌似是對空格進行轉(zhuǎn)義, 我不是很理解, 不進行轉(zhuǎn)義依舊可以匹配

到), 在 ASCII 表里, 空格字符 對應(yīng)十進制是 40, ~ 是 176, 這是所有的 可打印字符, 取反就是所有編碼不在 40 ~ 176 的字符, 所以中文

就會被匹配到, 下面為 ASCII表:

在Python中使用JSON時的注意事項

對于匹配到的字符, 會傳入回調(diào)函數(shù) replace 做轉(zhuǎn)義. replace 函數(shù)中的 ESCAPE_DCT 為:

ESCAPE_DCT = {
    '\\': '\\\\',
    '"': '\\"',
    '\b': '\\b',
    '\f': '\\f',
    '\n': '\\n',
    '\r': '\\r',
    '\t': '\\t',
}

先從 ESCAPE_DCT 中獲取 制表符、換行符 等常用字符的轉(zhuǎn)義, 如果失敗就獲取它的 Unicode 碼點, 然后判斷是否為小于 0x10000 即是

否為 兩字節(jié) 字符(兩字節(jié)大為 0xFFFF ) , 如果是就格式化為 Unicode 碼, 如果不是就使用 四字節(jié) 表示.

所以在使用 requests 時, 如果數(shù)據(jù)要使用 json 傳輸并且有 中文, 那么需要手動將 字典 進行 dump.

以上是在Python中使用JSON時的注意事項的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道!

網(wǎng)頁名稱:在Python中使用JSON時的注意事項-創(chuàng)新互聯(lián)
分享網(wǎng)址:http://bm7419.com/article32/dehhpc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機、做網(wǎng)站、建站公司、定制網(wǎng)站、移動網(wǎng)站建設(shè)、用戶體驗

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名