記一次不太成功的爬取dingtalk上的企業(yè)的信息-創(chuàng)新互聯(lián)

首先打開這個鏈接https://www.dingtalk.com/qiye/1.html,可以網(wǎng)頁列出了很多企業(yè),點擊企業(yè),就看到了企業(yè)的信息。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
所以,我們的思路就很明確了,通過https://www.dingtalk.com/qiye/1.html這個入口鏈接獲取企業(yè)的URL,然后通過訪問企業(yè)的URL獲取企業(yè)的信息。在jupyter notebook中試一下。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
企業(yè)的URL已經(jīng)獲取到了,然后再訪問企業(yè)的URL,看看能否獲取到企業(yè)的信息。
沒有。
寫請求頭,請求頭包含兩項,一個是cookie,一個user-agent。加上請求頭再試試看,有了。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
發(fā)現(xiàn)企業(yè)信息在js代碼里,寫正則表達式

站在用戶的角度思考問題,與客戶深入溝通,找到長寧網(wǎng)站設(shè)計與長寧網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網(wǎng)站設(shè)計、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、申請域名、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋長寧地區(qū)。
patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok,成功匹配出來
記一次不太成功的爬取dingtalk上的企業(yè)的信息
到此,發(fā)現(xiàn)很簡單了,立馬就把代碼給寫了出來,但發(fā)現(xiàn)一些問題,只有一部分企業(yè)的信息爬取了出來,大部分企業(yè)信息都獲取失敗了。這是咋回事呢,原來啊,有的企業(yè)URL源碼里有企業(yè)信息,而有的沒有。
記一次不太成功的爬取dingtalk上的企業(yè)的信息
記一次不太成功的爬取dingtalk上的企業(yè)的信息
然后,我查看完整企業(yè)信息,發(fā)現(xiàn)這個
記一次不太成功的爬取dingtalk上的企業(yè)的信息
但是,我無法構(gòu)造這個鏈接,憂傷。
所以,整個爬蟲到此為止。寫代碼的時候,原本想用入口鏈接不斷下一頁獲取所有企業(yè)URL,但一想,算了吧,直接簡單粗暴一點。然后呢,爬取的時候,爬取速度好慢。
最后,附上垃圾的源碼github。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站名稱:記一次不太成功的爬取dingtalk上的企業(yè)的信息-創(chuàng)新互聯(lián)
文章網(wǎng)址:http://bm7419.com/article10/gjsdo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、響應(yīng)式網(wǎng)站、靜態(tài)網(wǎng)站電子商務(wù)、小程序開發(fā)、網(wǎng)站策劃

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司