如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis

這篇文章主要介紹“如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis”的相關(guān)知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis”文章能幫助大家解決問題。

創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價比五常網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式五常網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋五常地區(qū)。費用合理售后完善,十年實體公司更值得信賴。

一、配置webdriver

下載谷歌瀏覽器驅(qū)動,并配置好

import timeimport randomfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECif __name__ == '__main__':options = webdriver.ChromeOptions()options.binary_location = r'C:UsershhhAppDataLocalGoogleChromeApplication谷歌瀏覽器.exe'# driver=webdriver.Chrome(executable_path=r'D:360Chromechromedriverchromedriver.exe')driver = webdriver.Chrome(options=options)#以java模塊為例driver.get('https://www.csdn.net/nav/java')for i in range(1,20):driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(2)

二、獲取URL

from bs4 import BeautifulSoupfrom lxml import etree 
html = etree.HTML(driver.page_source)# soup = BeautifulSoup(html, 'lxml')# soup_herf=soup.find_all("#feedlist_id > li:nth-child(1) > div > div > h2 > a")# soup_herftitle = html.xpath('//*[@id="feedlist_id"]/li/div/div/h2/a/@href')

可以看到,一下爬取了很多,速度非???br/>如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis

三、寫入Redis

導(dǎo)入redis包后,配置redis端口和redis數(shù)據(jù)庫,用rpush函數(shù)寫入
打開redis如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis

import redis
r_link = redis.Redis(port='6379', host='localhost', decode_responses=True, db=1)for u in title:print("準備寫入{}".format(u))r_link.rpush("csdn_url", u)print("{}寫入成功!".format(u))print('=' * 30, 'n', "共計寫入url:{}個".format(len(title)), 'n', '=' * 30)

如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis

大功告成!

在Redis Desktop Manager中可以看到,爬取和寫入都是非常的快。
如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis
要使用只需用rpop出棧就OK

one_url = r_link.rpop("csdn_url)")while one_url:print("{}被彈出!".format(one_url))

關(guān)于“如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,小編每天都會為大家更新不同的知識點。

分享文章:如何用python實現(xiàn)爬取CSDN熱門評論URL并存入redis
當(dāng)前路徑:http://bm7419.com/article6/psscig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動網(wǎng)站建設(shè)、用戶體驗、營銷型網(wǎng)站建設(shè)、全網(wǎng)營銷推廣網(wǎng)站設(shè)計公司、網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站建設(shè)