Python爬取網(wǎng)頁信息的示例-創(chuàng)新互聯(lián)

Python爬取網(wǎng)頁信息的步驟

成都創(chuàng)新互聯(lián)于2013年開始，是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司，擁有項目成都網(wǎng)站建設(shè)、成都網(wǎng)站制作網(wǎng)站策劃，項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命，1280元沽源做網(wǎng)站,已為上家服務(wù),為沽源各地企業(yè)和個人服務(wù),聯(lián)系電話:13518219792

以爬取英文名字網(wǎng)站（https://nameberry.com/）中每個名字的評論內(nèi)容，包括英文名，用戶名，評論的時間和評論的內(nèi)容為例。

1、確認(rèn)網(wǎng)址

在瀏覽器中輸入初始網(wǎng)址，逐層查找鏈接，直到找到需要獲取的內(nèi)容。

在打開的界面中，點擊鼠標(biāo)右鍵，在彈出的對話框中，選擇“檢查”，則在界面會顯示該網(wǎng)頁的源代碼，在具體內(nèi)容處點擊查找，可以定位到需要查找的內(nèi)容的源碼。

注意：代碼顯示的方式與瀏覽器有關(guān)，有些瀏覽器不支持顯示源代碼功能（360瀏覽器，谷歌瀏覽器，火狐瀏覽器等是支持顯示源代碼功能）

步驟圖：

1)首頁，獲取A~Z的頁面鏈接

Python爬取網(wǎng)頁信息的示例

2)名字鏈接頁，獲取每個字母中的名字鏈接（存在翻頁情況）

Python爬取網(wǎng)頁信息的示例

3)名字內(nèi)容頁，獲取每個名字的評論信息

Python爬取網(wǎng)頁信息的示例

2、編寫測試代碼

1)獲取A~Z鏈接，在爬取網(wǎng)頁信息時，為了減少網(wǎng)頁的響應(yīng)時間，可以根據(jù)已知的信息，自動生成對應(yīng)的鏈接，這里采取自動生成A~Z之間的連接，以pandas的二維數(shù)組形式存儲

def get_url1():
 urls=[]
 # A,'B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z'
 a=['A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z']　　　　#自動生成A~Z的鏈接
 for i in a:
  urls.append("https://nameberry.com/search/baby_names_starting_with/%s" %i)
 dp=pd.DataFrame(urls)
 dp.to_csv("A~Z_Link1.csv",mode="a",encoding='utf_8_sig')　　　　#循環(huán)用于在每個字母鏈接下，調(diào)用爬取名字鏈接的頁面的函數(shù)，即函數(shù)嵌套
 for j in urls:
  get_pages_Html(j)
 return urls

本文名稱：Python爬取網(wǎng)頁信息的示例-創(chuàng)新互聯(lián)
本文路徑：http://bm7419.com/article8/hecip.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供營銷型網(wǎng)站建設(shè)、用戶體驗、品牌網(wǎng)站設(shè)計、網(wǎng)站策劃、網(wǎng)站導(dǎo)航、商城網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容