URL編碼知識點有哪些

這篇文章主要講解了“URL編碼知識點有哪些”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“URL編碼知識點有哪些”吧！

成都創(chuàng)新互聯(lián)長期為1000多家客戶提供的網(wǎng)站建設(shè)服務(wù)，團(tuán)隊從業(yè)經(jīng)驗10年，關(guān)注不同地域、不同群體，并針對不同對象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為西雙版納企業(yè)提供專業(yè)的成都做網(wǎng)站、成都網(wǎng)站建設(shè)，西雙版納網(wǎng)站改版等技術(shù)服務(wù)。擁有10余年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。

我們都知道Http協(xié)議中參數(shù)的傳輸是"key=value"這種簡直對形式的，如果要傳多個參數(shù)就需要用“&”符號對鍵值對進(jìn)行分割。

如"?name1=value1&name2=value2"，這樣在服務(wù)端在收到這種字符串的時候，會用“&”分割出每一個參數(shù)，然后再用“=”來分割出參數(shù)值。

針對“name1=value1&name2=value2”我們來說一下客戶端到服務(wù)端的概念上解析過程:

上述字符串在計算機(jī)中用ASCII嗎表示為：

6E616D6531 3D 76616C756531 26 6E616D6532 3D 76616C756532。    6E616D6531：name1    3D：=    76616C756531：value1    26：&   6E616D6532：name2    3D：=    76616C756532：value2

服務(wù)端在接收到該數(shù)據(jù)后就可以遍歷該字節(jié)流，首先一個字節(jié)一個字節(jié)的吃，當(dāng)吃到3D這字節(jié)后，服務(wù)端就知道前面吃得字節(jié)表示一個key，再想后吃，如果遇到26，說明從剛才吃的3D到26子節(jié)之間的是上一個key的value，以此類推就可以解析出客戶端傳過來的參數(shù)。

現(xiàn)在有這樣一個問題，如果我的參數(shù)值中就包含=或&這種特殊字符的時候該怎么辦？

比如說“name1=value1”,其中value1的值是“va&lu=e1”字符串，那么實際在傳輸過程中就會變成這樣“name1=va&lu=e1”。我們的本意是就只有一個鍵值對，但是服務(wù)端會解析成兩個鍵值對，這樣就產(chǎn)生了奇異。

如何解決上述問題帶來的歧義呢？解決的辦法就是對參數(shù)進(jìn)行URL編碼
URL編碼只是簡單的在特殊字符的各個字節(jié)前加上%，例如，我們對上述會產(chǎn)生奇異的字符進(jìn)行URL編碼后結(jié)果：“name1=va%26lu%3D”，這樣服務(wù)端會把緊跟在“%”后的字節(jié)當(dāng)成普通的字節(jié)，就是不會把它當(dāng)成各個參數(shù)或鍵值對的分隔符。

另外一個問題，就是為什么我們要用ASCII傳輸，可不可以用別的編碼？
當(dāng)然可以用別的編碼，你自己可以開發(fā)一套編碼，然后自己解析。就像大部分國家都有自己的語言一樣。那國家之間要交流，怎么辦？用英語把，英語的使用范圍最廣。

通常如果一樣?xùn)|西需要編碼，說明這樣?xùn)|西并不適合傳輸。原因多種多樣，如Size過大，包含隱私數(shù)據(jù)，對于Url來說，之所以要進(jìn)行編碼，是因為Url中有些字符會引起歧義。

例如，Url參數(shù)字符串中使用key=value鍵值對這樣的形式來傳參，鍵值對之間以&符號分隔，如/s?q=abc&ie=utf-8。如果你的value字符串中包含了=或者&，那么勢必會造成接收Url的服務(wù)器解析錯誤，因此必須將引起歧義的&和=符號進(jìn)行轉(zhuǎn)義，也就是對其進(jìn)行編碼。

又如，Url的編碼格式采用的是ASCII碼，而不是Unicode，這也就是說你不能在Url中包含任何非ASCII字符，例如中文。否則如果客戶端瀏覽器和服務(wù)端瀏覽器支持的字符集不同的情況下，中文可能會造成問題。

Url編碼的原則就是使用安全的字符（沒有特殊用途或者特殊意義的可打印字符）去表示那些不安全的字符。

預(yù)備知識：URI是統(tǒng)一資源標(biāo)識的意思，通常我們所說的URL只是URI的一種。典型URL的格式如下所示。下面提到的URL編碼，實際上應(yīng)該指的是URI編碼。

foo://example.com:8042/over/there?name=ferret#nose
\_/ \______________/ \________/\_________/ \__/
| | | | |
scheme authority path query fragment

哪些字符需要編碼

RFC3986文檔規(guī)定，Url中只允許包含英文字母（a-zA-Z）、數(shù)字（0-9）、-_.~4個特殊字符以及所有保留字符。RFC3986文檔對Url的編解碼問題做出了詳細(xì)的建議，指出了哪些字符需要被編碼才不會引起Url語義的轉(zhuǎn)變，以及對為什么這些字符需要編碼做出了相應(yīng)的解釋。

US-ASCII字符集中沒有對應(yīng)的可打印字符：Url中只允許使用可打印字符。US-ASCII碼中的10-7F字節(jié)全都表示控制字符，這些字符都不能直接出現(xiàn)在Url中。同時，對于80-FF字節(jié)（ISO-8859-1），由于已經(jīng)超出了US-ACII定義的字節(jié)范圍，因此也不可以放在Url中。

保留字符：Url可以劃分成若干個組件，協(xié)議、主機(jī)、路徑等。有一些字符（:/?#[]@）是用作分隔不同組件的。例如：冒號用于分隔協(xié)議和主機(jī)，/用于分隔主機(jī)和路徑，?用于分隔路徑和查詢參數(shù)，等等。

還有一些字符（!$&'()*+,;=）用于在每個組件中起到分隔作用的，如=用于表示查詢參數(shù)中的鍵值對，&符號用于分隔查詢多個鍵值對。當(dāng)組件中的普通數(shù)據(jù)包含這些特殊字符時，需要對其進(jìn)行編碼。

RFC3986中指定了以下字符為保留字符：! * ' ( ) ; : @ & = + $ , / ? # [ ]

不安全字符：還有一些字符，當(dāng)他們直接放在Url中的時候，可能會引起解析程序的歧義。這些字符被視為不安全字符，原因有很多。

空格：Url在傳輸?shù)倪^程，或者用戶在排版的過程，或者文本處理程序在處理Url的過程，都有可能引入無關(guān)緊要的空格，或者將那些有意義的空格給去掉。
引號以及<>：引號和尖括號通常用于在普通文本中起到分隔Url的作用
#：通常用于表示書簽或者錨點
%：百分號本身用作對不安全字符進(jìn)行編碼時使用的特殊字符，因此本身需要編碼
{}|\^[]`~：某一些網(wǎng)關(guān)或者傳輸代理會篡改這些字符

需要注意的是，對于Url中的合法字符，編碼和不編碼是等價的，但是對于上面提到的這些字符，如果不經(jīng)過編碼，那么它們有可能會造成Url語義的不同。因此對于Url而言，只有普通英文字符和數(shù)字，特殊字符$-_.+!*'()還有保留字符，才能出現(xiàn)在未經(jīng)編碼的Url之中。其他字符均需要經(jīng)過編碼之后才能出現(xiàn)在Url中。

但是由于歷史原因，目前尚存在一些不標(biāo)準(zhǔn)的編碼實現(xiàn)。例如對于~符號，雖然RFC3986文檔規(guī)定，對于波浪符號~，不需要進(jìn)行Url編碼，但是還是有很多老的網(wǎng)關(guān)或者傳輸代理會進(jìn)行編碼。

如何對Url中的非法字符進(jìn)行編碼

Url編碼通常也被稱為百分號編碼（Url Encoding，also known as percent-encoding），是因為它的編碼方式非常簡單，使用%百分號加上兩位的字符——0123456789ABCDEF——代表一個字節(jié)的十六進(jìn)制形式。

Url編碼默認(rèn)使用的字符集是US-ASCII。例如a在US-ASCII碼中對應(yīng)的字節(jié)是0x61，那么Url編碼之后得到的就是%61，我們在地址欄上輸入http://g.cn/search?q=%61%62%63，實際上就等同于在google上搜索abc了。又如@符號在ASCII字符集中對應(yīng)的字節(jié)為0x40，經(jīng)過Url編碼之后得到的是%40。

對于非ASCII字符，需要使用ASCII字符集的超集進(jìn)行編碼得到相應(yīng)的字節(jié)，然后對每個字節(jié)執(zhí)行百分號編碼。對于Unicode字符，RFC文檔建議使用utf-8對其進(jìn)行編碼得到相應(yīng)的字節(jié)，然后對每個字節(jié)執(zhí)行百分號編碼。如"中文"使用UTF-8字符集得到的字節(jié)為0xE4 0xB8 0xAD 0xE6 0x96 0x87，經(jīng)過Url編碼之后得到"%E4%B8%AD%E6%96%87"。

如果某個字節(jié)對應(yīng)著ASCII字符集中的某個非保留字符，則此字節(jié)無需使用百分號表示。例如"Url編碼"，使用UTF-8編碼得到的字節(jié)是0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81，由于前三個字節(jié)對應(yīng)著ASCII中的非保留字符"Url"，因此這三個字節(jié)可以用非保留字符"Url"表示。最終的Url編碼可以簡化成"Url%E7%BC%96%E7%A0%81" ，當(dāng)然，如果你用"%55%72%6C%E7%BC%96%E7%A0%81"也是可以的。

由于歷史的原因，有一些Url編碼實現(xiàn)并不完全遵循這樣的原則，下面會提到。

Javascript中的escape, encodeURI和encodeURIComponent的區(qū)別

JavaScript中提供了3對函數(shù)用來對Url編碼以得到合法的Url，它們分別是escape / unescape, encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。由于解碼和編碼的過程是可逆的，因此這里只解釋編碼的過程。

這三個編碼的函數(shù)——escape，encodeURI，encodeURIComponent——都是用于將不安全不合法的Url字符轉(zhuǎn)換為合法的Url字符表示，它們有以下幾個不同點。

安全字符不同：

下面列出了這三個函數(shù)的安全字符（即函數(shù)不會對這些字符進(jìn)行編碼）

escape（69個）：*/@+-._0-9a-zA-Z
encodeURI（82個）：!#$&'()*+,/:;=?@-._~0-9a-zA-Z
encodeURIComponent（71個）：!'()*-._~0-9a-zA-Z

兼容性不同：

escape函數(shù)是從Javascript 1.0的時候就存在了，其他兩個函數(shù)是在Javascript 1.5才引入的。但是由于Javascript 1.5已經(jīng)非常普及了，所以實際上使用encodeURI和encodeURIComponent并不會有什么兼容性問題。

對Unicode字符的編碼方式不同：

這三個函數(shù)對于ASCII字符的編碼方式相同，均是使用百分號+兩位十六進(jìn)制字符來表示。但是對于Unicode字符，escape的編碼方式是%uxxxx，其中的xxxx是用來表示unicode字符的4位十六進(jìn)制字符。

這種方式已經(jīng)被W3C廢棄了。但是在ECMA-262標(biāo)準(zhǔn)中仍然保留著escape的這種編碼語法。encodeURI和encodeURIComponent則使用UTF-8對非ASCII字符進(jìn)行編碼，然后再進(jìn)行百分號編碼。這是RFC推薦的。因此建議盡可能的使用這兩個函數(shù)替代escape進(jìn)行編碼。

適用場合不同：encodeURI被用作對一個完整的URI進(jìn)行編碼，而encodeURIComponent被用作對URI的一個組件進(jìn)行編碼。從上面提到的安全字符范圍表格來看，我們會發(fā)現(xiàn)，encodeURIComponent編碼的字符范圍要比encodeURI的大。

我們上面提到過，保留字符一般是用來分隔URI組件（一個URI可以被切割成多個組件，參考預(yù)備知識一節(jié)）或者子組件（如URI中查詢參數(shù)的分隔符），如：號用于分隔scheme和主機(jī)，?號用于分隔主機(jī)和路徑。由于encodeURI操縱的對象是一個完整的的URI，這些字符在URI中本來就有特殊用途，因此這些保留字符不會被encodeURI編碼，否則意義就變了。

組件內(nèi)部有自己的數(shù)據(jù)表示格式，但是這些數(shù)據(jù)內(nèi)部不能包含有分隔組件的保留字符，否則就會導(dǎo)致整個URI中組件的分隔混亂。因此對于單個組件使用encodeURIComponent，需要編碼的字符就更多了。

表單提交

當(dāng)Html的表單被提交時，每個表單域都會被Url編碼之后才在被發(fā)送。由于歷史的原因，表單使用的Url編碼實現(xiàn)并不符合最新的標(biāo)準(zhǔn)。

例如對于空格使用的編碼并不是%20，而是+號，如果表單使用的是Post方法提交的，我們可以在HTTP頭中看到有一個Content-Type的header，值為application/x-www-form-urlencoded。

大部分應(yīng)用程序均能處理這種非標(biāo)準(zhǔn)實現(xiàn)的Url編碼，但是在客戶端Javascript中，并沒有一個函數(shù)能夠?qū)?號解碼成空格，只能自己寫轉(zhuǎn)換函數(shù)。還有，對于非ASCII字符，使用的編碼字符集取決于當(dāng)前文檔使用的字符集。例如我們在Html頭部加上

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

這樣瀏覽器就會使用gb2312去渲染此文檔（注意，當(dāng)HTML文檔中沒有設(shè)置此meta標(biāo)簽，則瀏覽器會根據(jù)當(dāng)前用戶喜好去自動選擇字符集，用戶也可以強(qiáng)制當(dāng)前網(wǎng)站使用某個指定的字符集）。當(dāng)提交表單時，Url編碼使用的字符集就是gb2312。

之前在使用Aptana（為什么專指aptana下面會提到）遇到一個很迷惑的問題，就是在使用encodeURI的時候，發(fā)現(xiàn)它編碼得到的結(jié)果和我想的很不一樣。下面是我的示例代碼：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml">    <head>        <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />    </head>    <body>        <script type="text/javascript">            document.write(encodeURI("中文"));</script>    </body></html>

運行結(jié)果輸出%E6%B6%93%EE%85%9F%E6%9E%83。顯然這并不是使用UTF-8字符集進(jìn)行Url編碼得到的結(jié)果（在Google上搜索"中文"，Url中顯示的是%E4%B8%AD%E6%96%87）。

所以我當(dāng)時就很質(zhì)疑，難道encodeURI還跟頁面編碼有關(guān)，但是我發(fā)現(xiàn)，正常情況下，如果你使用gb2312進(jìn)行Url編碼也不會得到這個結(jié)果的才是。后來終于被我發(fā)現(xiàn)，原來是頁面文件存儲使用的字符集和Meta標(biāo)簽中指定的字符集不一致導(dǎo)致的問題。

Aptana的編輯器默認(rèn)情況下使用UTF-8字符集。也就是說這個文件實際存儲的時候使用的是UTF-8字符集。但是由于Meta標(biāo)簽中指定了gb2312，這個時候，瀏覽器就會按照gb2312去解析這個文檔，那么自然在"中文"這個字符串這里就會出錯，因為"中文"字符串用UTF-8編碼過后得到的字節(jié)是0xE4 0xB8 0xAD 0xE6 0x96 0x87，這6個字節(jié)又被瀏覽器拿gb2312去解碼，那么就會得到另外三個漢字"涓枃"（GBK中一個漢字占兩個字節(jié)），這三個漢字在傳入encodeURI函數(shù)之后得到的結(jié)果就是%E6%B6%93%EE%85%9F%E6%9E%83。因此，encodeURI使用的還是UTF-8，并不會受到頁面字符集的影響。

對于包含中文的Url的處理問題，不同瀏覽器有不同的表現(xiàn)。例如對于IE，如果你勾選了高級設(shè)置"總是以UTF-8發(fā)送Url"，那么Url中的路徑部分的中文會使用UTF-8進(jìn)行Url編碼之后發(fā)送給服務(wù)端，而查詢參數(shù)中的中文部分使用系統(tǒng)默認(rèn)字符集進(jìn)行Url編碼。為了保證最大互操作性，建議所有放到Url中的組件全部顯式指定某個字符集進(jìn)行Url編碼，而不依賴于瀏覽器的默認(rèn)實現(xiàn)。

另外，很多HTTP監(jiān)視工具或者瀏覽器地址欄等在顯示Url的時候會自動將Url進(jìn)行一次解碼（使用UTF-8字符集），這就是為什么當(dāng)你在Firefox中訪問Google搜索中文的時候，地址欄顯示的Url包含中文的緣故。但實際上發(fā)送給服務(wù)端的原始Url還是經(jīng)過編碼的。你可以在地址欄上使用Javascript訪問location.href就可以看出來了。在研究Url編解碼的時候千萬別被這些假象給迷惑了。

感謝各位的閱讀，以上就是“URL編碼知識點有哪些”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對URL編碼知識點有哪些這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

本文標(biāo)題：URL編碼知識點有哪些
URL鏈接：http://bm7419.com/article12/pphpgc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App開發(fā)、手機(jī)網(wǎng)站建設(shè)、品牌網(wǎng)站制作、定制網(wǎng)站、面包屑導(dǎo)航、做網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容