使用selenium和pyquery爬取京東商品列表過(guò)程解析-創(chuàng)新互聯(lián)

今天一起學(xué)起使用selenium和pyquery爬取京東的商品列表。本文的所有代碼是在pycharm IDE中完成的,操作系統(tǒng)window 10。

我們提供的服務(wù)有:成都網(wǎng)站建設(shè)、成都做網(wǎng)站、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、肅南裕固族自治ssl等。為上千家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的肅南裕固族自治網(wǎng)站制作公司

1、準(zhǔn)備工作

安裝pyquery和selenium類庫(kù)。依次點(diǎn)擊file->settings,會(huì)彈出如下的界面:



然后依次點(diǎn)擊:project->project Interpreter->"+",,如上圖的紅色框所示。然后會(huì)彈出下面的界面:


輸入selenium,在結(jié)果列表中選中“selenium”,點(diǎn)擊“install package”按鈕安裝selenium類庫(kù)。pyquery也是一樣的安裝方法。

安裝chrome和chrome driver插件。chrome dirver插件下載地址:http://npm.taobao.org/mirrors/chromedriver/。 切記chrome和chrome dirver的版本要一致。我的chrome版本是70,對(duì)應(yīng)chrome driver是2.44,2.43,2.42。

下載chrome driver解壓后,將exe文件拷貝到pycharm開(kāi)發(fā)空間的Scripts文件夾中:


2、分析要爬取的頁(yè)面


這次是爬取京東圖書(shū)中計(jì)算機(jī)書(shū)籍類書(shū)籍的信息。


打開(kāi)chrome,打開(kāi)開(kāi)發(fā)者工具,輸入www.jd.com,分析查詢輸入框和查詢按鈕的css代碼:



通過(guò)分析發(fā)現(xiàn),搜索框的css代碼是id=“key”,查詢按鈕的css代碼是class=“button”。下面是使用selenium調(diào)用chrome瀏覽器在搜索框輸入關(guān)鍵詞“計(jì)算機(jī)書(shū)籍”并點(diǎn)擊查詢按鈕出發(fā)查詢請(qǐng)求的代碼:

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from pyquery import PyQuery as pq

#通過(guò)Chrome()方法打開(kāi)chrome瀏覽器
browser = webdriver.Chrome()
#訪問(wèn)京東網(wǎng)站
browser.get("https://www.jd.com")
#等待50秒
wait = WebDriverWait(browser, 50)
#通過(guò)css選擇器的id屬性獲得輸入框
input = browser.find_element_by_id('key')
#在輸入框中寫(xiě)入要查詢的信息
input.send_keys('計(jì)算機(jī)書(shū)籍')
#獲取查詢按鈕
submit_button = browser.find_element_by_class_name('button')
#點(diǎn)擊查詢按鈕
submit_button.click()

當(dāng)前名稱:使用selenium和pyquery爬取京東商品列表過(guò)程解析-創(chuàng)新互聯(lián)
路徑分享:http://bm7419.com/article46/didieg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化網(wǎng)站內(nèi)鏈、用戶體驗(yàn)、動(dòng)態(tài)網(wǎng)站、靜態(tài)網(wǎng)站、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司