Python爬取網(wǎng)頁信息的示例-創(chuàng)新互聯(lián)

Python爬取網(wǎng)頁信息的步驟

成都創(chuàng)新互聯(lián)于2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目成都網(wǎng)站建設(shè)、成都網(wǎng)站制作網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元沽源做網(wǎng)站,已為上家服務(wù),為沽源各地企業(yè)和個人服務(wù),聯(lián)系電話:13518219792

以爬取英文名字網(wǎng)站(https://nameberry.com/)中每個名字的評論內(nèi)容,包括英文名,用戶名,評論的時間和評論的內(nèi)容為例。

1、確認(rèn)網(wǎng)址

在瀏覽器中輸入初始網(wǎng)址,逐層查找鏈接,直到找到需要獲取的內(nèi)容。

在打開的界面中,點擊鼠標(biāo)右鍵,在彈出的對話框中,選擇“檢查”,則在界面會顯示該網(wǎng)頁的源代碼,在具體內(nèi)容處點擊查找,可以定位到需要查找的內(nèi)容的源碼。

注意:代碼顯示的方式與瀏覽器有關(guān),有些瀏覽器不支持顯示源代碼功能(360瀏覽器,谷歌瀏覽器,火狐瀏覽器等是支持顯示源代碼功能)

步驟圖:

1)首頁,獲取A~Z的頁面鏈接

Python爬取網(wǎng)頁信息的示例

Python爬取網(wǎng)頁信息的示例

2)名字鏈接頁,獲取每個字母中的名字鏈接(存在翻頁情況)

Python爬取網(wǎng)頁信息的示例

3)名字內(nèi)容頁,獲取每個名字的評論信息

Python爬取網(wǎng)頁信息的示例

2、編寫測試代碼

1)獲取A~Z鏈接,在爬取網(wǎng)頁信息時,為了減少網(wǎng)頁的響應(yīng)時間,可以根據(jù)已知的信息,自動生成對應(yīng)的鏈接,這里采取自動生成A~Z之間的連接,以pandas的二維數(shù)組形式存儲

def get_url1():
 urls=[]
 # A,'B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z'
 a=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']    #自動生成A~Z的鏈接
 for i in a:
  urls.append("https://nameberry.com/search/baby_names_starting_with/%s" %i)
 dp=pd.DataFrame(urls)
 dp.to_csv("A~Z_Link1.csv",mode="a",encoding='utf_8_sig')    #循環(huán)用于在每個字母鏈接下,調(diào)用爬取名字鏈接的頁面的函數(shù),即函數(shù)嵌套
 for j in urls:
  get_pages_Html(j)
 return urls

本文名稱:Python爬取網(wǎng)頁信息的示例-創(chuàng)新互聯(lián)
本文路徑:http://bm7419.com/article8/hecip.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)、用戶體驗、品牌網(wǎng)站設(shè)計、網(wǎng)站策劃網(wǎng)站導(dǎo)航、商城網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管