node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息

簡(jiǎn)介

成都創(chuàng)新互聯(lián)主營(yíng)甘肅網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,app軟件開(kāi)發(fā),甘肅h5微信小程序搭建,甘肅網(wǎng)站營(yíng)銷推廣歡迎甘肅等地區(qū)企業(yè)咨詢

用node.js寫了一個(gè)簡(jiǎn)單的小爬蟲(chóng),用來(lái)爬取拉勾網(wǎng)上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個(gè)城市的數(shù)據(jù),分別以前端、PHP、java、c++、python、Android、ios作為關(guān)鍵詞進(jìn)行爬取,爬到的數(shù)據(jù)以json格式儲(chǔ)存到本地,為了方便觀察,我將數(shù)據(jù)整理了一下供大家參考

數(shù)據(jù)結(jié)果

node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息

上述數(shù)據(jù)為3月13日22時(shí)爬取的數(shù)據(jù),可大致反映各個(gè)城市對(duì)不同語(yǔ)言的需求量。

爬取過(guò)程展示

控制并發(fā)進(jìn)行爬取

node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息

爬取到的數(shù)據(jù)文件

node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息

json數(shù)據(jù)文件

node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息

爬蟲(chóng)程序

實(shí)現(xiàn)思路

請(qǐng)求拉鉤網(wǎng)的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關(guān)鍵詞&pn=頁(yè)數(shù)”可以返回一個(gè)json格式的數(shù)據(jù),該數(shù)據(jù)包含所要請(qǐng)求職位的信息,省去了使用chreio解析的麻煩,所以直接用superagent來(lái)進(jìn)行請(qǐng)求上述地址,并將數(shù)據(jù)儲(chǔ)存在本地即可,其中參數(shù)city是為城市,kd為所要搜索的關(guān)鍵詞,pn為要請(qǐng)求的頁(yè)數(shù),當(dāng)中使用到了async來(lái)控制異步流程,使得并發(fā)數(shù)不超過(guò)3,防止被封ip。

代碼地址及使用

github:https://github.com/zsqosos/positionAnalysis

代碼請(qǐng)?jiān)趃ithub上查看,使用該程序需要安裝node環(huán)境,如果覺(jué)得還不錯(cuò)的話煩請(qǐng)給個(gè)star,歡迎大家修改使用該程序。

以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,同時(shí)也希望多多支持創(chuàng)新互聯(lián)!

當(dāng)前題目:node.js爬蟲(chóng)爬取拉勾網(wǎng)職位信息
標(biāo)題URL:http://bm7419.com/article40/iihiho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、面包屑導(dǎo)航、網(wǎng)站改版、網(wǎng)站收錄、電子商務(wù)、企業(yè)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化