web開(kāi)發(fā)中的反爬技術(shù)有哪些

本篇內(nèi)容主要講解“web開(kāi)發(fā)中的反爬技術(shù)有哪些”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“web開(kāi)發(fā)中的反爬技術(shù)有哪些”吧!

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供香坊企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站制作、成都做網(wǎng)站、H5頁(yè)面制作、小程序制作等業(yè)務(wù)。10年已為香坊眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

1、user-agent

數(shù)據(jù)請(qǐng)求頭,最初級(jí)的反爬,只要在請(qǐng)求中模擬請(qǐng)求頭即可輕松飄過(guò)。

解決方法:可以自己設(shè)置一下user-agent,或者更好的是,可以從一系列的user-agent里隨機(jī)挑出一個(gè)符合標(biāo)準(zhǔn)的使用

2、驗(yàn)證碼

驗(yàn)證碼是最常用的反爬蟲(chóng)措施,但簡(jiǎn)單驗(yàn)證碼通過(guò)機(jī)器學(xué)習(xí)自動(dòng)識(shí)別,通常正確率能達(dá)到50%以上甚至更高。

復(fù)雜驗(yàn)證碼通過(guò)提交到專門的打碼平臺(tái)進(jìn)行人工打碼,依據(jù)驗(yàn)證碼的復(fù)雜度,打碼工人平均每碼收1-2分錢,成本比較低。也同樣容易被繞過(guò),使得數(shù)據(jù)容易被爬取。

3、封IP

這是最有效也最容易誤殺的方案。該策略建立在 IP 稀有的前提下,目前通過(guò)代理池購(gòu)買,ADSL,或者撥號(hào) vps 等方式,可以低成本獲取數(shù)十萬(wàn)的 IP 池,導(dǎo)致單純的封IP策略效果越來(lái)越差。

解決方法:

比較成熟的方式是:IP代理池

簡(jiǎn)單的說(shuō),就是通過(guò)ip代理,從不同的ip進(jìn)行訪問(wèn),這樣就不會(huì)被封掉ip了??墒莍p代理的獲取本身就是一個(gè)很麻煩的事情,網(wǎng)上有免費(fèi)和付費(fèi)的,但是質(zhì)量都層次不齊。如果是企業(yè)里需要的話,可以通過(guò)自己購(gòu)買集群云服務(wù)來(lái)自建代理池。

4、滑塊驗(yàn)證

滑塊驗(yàn)證結(jié)合了機(jī)器學(xué)習(xí)技術(shù),只需要滑動(dòng)滑塊,而不用看那些復(fù)雜到有時(shí)人眼也無(wú)法分辨的字母。但由于部分廠商實(shí)現(xiàn)時(shí)校驗(yàn)算法較為簡(jiǎn)單,導(dǎo)致經(jīng)常只需要相對(duì)簡(jiǎn)單的模擬滑動(dòng)操作就能繞過(guò),從而使得數(shù)據(jù)被惡意爬取。類似案例:淘寶,阿里云,淘寶聯(lián)盟。

5、關(guān)聯(lián)請(qǐng)求上下文

反爬蟲(chóng)可以通過(guò) Token 或網(wǎng)絡(luò)請(qǐng)求上下文是否進(jìn)行了完整流程的方式來(lái)判斷是否真人訪問(wèn)。但對(duì)具有協(xié)議分析能力的技術(shù)人員來(lái)說(shuō)進(jìn)行全量模擬并沒(méi)有太大困難。類似案例:知乎,百度登錄過(guò)程。

6、JavaScript 參與運(yùn)算

簡(jiǎn)單的爬蟲(chóng)無(wú)法進(jìn)行 js 運(yùn)算,如果部分中間結(jié)果需要 js 引擎對(duì) js 進(jìn)行解析和運(yùn)算,那么就可以讓攻擊者無(wú)法簡(jiǎn)單進(jìn)行爬取。但爬蟲(chóng)開(kāi)發(fā)者依然可以通過(guò)自帶 js 引擎模塊或直接使用 phantomjs ,chrome等無(wú)端瀏覽器進(jìn)行自動(dòng)化解析。

解決方法:這里就要請(qǐng)出一個(gè)大殺器:”PhantomJS“PhantomJS是一個(gè)Python包,他可以在沒(méi)有圖形界面的情況下,完全模擬一個(gè)”瀏覽器“,js腳本驗(yàn)證什么的再也不是問(wèn)題了。

7、提高數(shù)據(jù)獲取成本

當(dāng)面對(duì)的是職業(yè)選手時(shí),只能通過(guò)提升對(duì)方人力成本來(lái)實(shí)現(xiàn),比如代碼混淆、動(dòng)態(tài)加密方案、假數(shù)據(jù),混淆數(shù)據(jù)等方式,利用開(kāi)發(fā)速度大于分析速度的優(yōu)勢(shì),來(lái)拖垮對(duì)方的意志。如果對(duì)方咬定不放松,那只能持續(xù)對(duì)抗,直到一方由于機(jī)器成本或人力成本放棄。典型案例:汽車之家字體替換,去哪兒網(wǎng)網(wǎng)隱藏在CSS元素坐標(biāo)中。

到此,相信大家對(duì)“web開(kāi)發(fā)中的反爬技術(shù)有哪些”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!

新聞標(biāo)題:web開(kāi)發(fā)中的反爬技術(shù)有哪些
文章分享:http://bm7419.com/article16/gipcdg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、軟件開(kāi)發(fā)、App設(shè)計(jì)網(wǎng)站維護(hù)、網(wǎng)站收錄

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司