python爬蟲中js反爬的示例分析-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)python爬蟲中js反爬的示例分析的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考,一起跟隨小編過來看看吧。

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、微信平臺小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了文山州免費建站歡迎大家使用!

目標(biāo)網(wǎng)站

列表頁url:  http://www.hnrexian.com/archives/category/jk。

正常網(wǎng)站我們請求url會返回給我們網(wǎng)頁數(shù)據(jù)內(nèi)容等,看看這個網(wǎng)站返回給我們的是什么呢?

我們把相應(yīng)中返回的js代碼格式化一下,方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
  var val = "";
  for (var i = 0; i < str.length; i++) {
    if (val == "") val = str.charCodeAt(i).toString(16);
    else val += str.charCodeAt(i).toString(16);
  }
  return val;
}
function YunSuoAutoJump() {
  var width = screen.width;
  var height = screen.height;
  var screendate = width + "," + height;
  var curlocation = window.location.href;
  if ( - 1 == curlocation.indexOf("security_verify_")) {
    document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
  }
  self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
 <script>setTimeout("YunSuoAutoJump()", 50);</script >

說好的返回網(wǎng)頁數(shù)據(jù)源碼呢,這是什么東西!

js破解思路

js破解提供兩種思路,一種是直接用Python來重寫js內(nèi)容,實現(xiàn)模擬js的操作,這種一般用于比較簡單的js;還有一種是用Python第三方庫來解析js,比如pyv8,execjs這些(個人覺得execjs比較好用),這種一般用于比較復(fù)雜的js解析。

分析返回的js分成兩個部分。第一部分,定義了stringToHex和YunSuoAutoJump兩個函數(shù)。第二部分,50毫秒后執(zhí)行YunSuoAutoJump這個函數(shù)。

YunSuoAutoJump這個函數(shù)功能是添加一個cookie并去請求一個構(gòu)造的url,可以從document.cookie 和 self.location這里看出。stringToHex這個函數(shù)的共能其實就是字符串的轉(zhuǎn)換,具體js內(nèi)容可以參考這個網(wǎng)址https://www.runoob.com/js/js-tutorial.html自行查找。

python重寫代碼

那么接下來就是用python來重寫js啦,重寫后代碼如下。

def stringToHex(string):
  length = len(string)
  hex_string = str()
  for i in xrange(length):
    hex_string += hex(ord(string[i]))[2:]
  return hex_string

def get_cookie(url):
  hex_string = stringToHex(url)
  cookie = {"srcurl": hex_string, "path": "/"}
  return cookie

這是那兩個函數(shù),一個用于字符串轉(zhuǎn)換,一個用于獲取cookie。

最后拿到結(jié)果

接下來模擬瀏覽器操作,其中是分為三部分。第一次,我們請求目標(biāo)url,然后返回給我們js內(nèi)容;第二次,js添加1個cookie并請求了1個構(gòu)造出的url;第三次請求原目標(biāo)url,得到最終的數(shù)據(jù)。

這里我們用requests.Session來保持連接,模擬上面三部的內(nèi)容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到這里我們就完美得到最后想要的內(nèi)容了。

感謝各位的閱讀!關(guān)于“python爬蟲中js反爬的示例分析”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

新聞標(biāo)題:python爬蟲中js反爬的示例分析-創(chuàng)新互聯(lián)
標(biāo)題URL:http://bm7419.com/article10/diopgo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊、移動網(wǎng)站建設(shè)網(wǎng)站收錄、靜態(tài)網(wǎng)站、網(wǎng)站營銷、服務(wù)器托管

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

商城網(wǎng)站建設(shè)