python爬蟲爬取球迷評(píng)論

python爬蟲爬取球迷評(píng)論,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。

創(chuàng)新互聯(lián)建站于2013年創(chuàng)立,先為寧江等服務(wù)建站,寧江等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為寧江企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

這次用python爬蟲爬點(diǎn)好玩的東西

這兩天看恰好有nba決賽,是球迷的你肯定不會(huì)錯(cuò)過(guò)的,更何況今年的西部決賽是火箭對(duì)戰(zhàn)勇士,今年的火箭是很強(qiáng)的,因?yàn)闆](méi)到關(guān)鍵時(shí)候總會(huì)有人站出來(lái)。當(dāng)然,勇士也是挺強(qiáng)的,畢竟不能小看庫(kù)里杜蘭特等四大巨頭。

東部的決賽我就不太知道了,一直以為是凱爾特人會(huì)苦戰(zhàn)騎士,誰(shuí)知道缺了兩大主力的凱爾特人還是很強(qiáng),而且還打了騎士2:0,看來(lái)這次的騎士會(huì)是兇多吉少了,不知道凱爾特人會(huì)不會(huì)成功復(fù)仇,讓我們拭目以待吧!

有直播就肯定有評(píng)論,所以我想爬取下球迷評(píng)論,看看他們都在聊什么!

準(zhǔn)備工作

需要用到的庫(kù):

    requests:用于網(wǎng)絡(luò)請(qǐng)求

    jieba:用于分詞

    wordcloud:制作詞云圖

    numpy:制作背景圖片

詞云背景圖片:

python爬蟲爬取球迷評(píng)論

上面的庫(kù)都是可以直接用pip進(jìn)行下載的,但是wordcloud會(huì)報(bào)錯(cuò),報(bào)錯(cuò)如下:

python爬蟲爬取球迷評(píng)論

我們需要去官網(wǎng)下載whl文件進(jìn)行手動(dòng)安裝

官網(wǎng):https://www.lfd.uci.edu/~gohlke/pythonlibs/

然后找到對(duì)應(yīng)自己安裝的python版本進(jìn)行下載

python爬蟲爬取球迷評(píng)論

最后在命令行下安裝即可

pip install “文件路徑+whl文件名”

接下來(lái)尋找目標(biāo)網(wǎng)頁(yè)

文字直播地址:https://www.zhibo8.cc/zhibo/nba/2018/0517123898.htm?redirect=zhibo

在這個(gè)網(wǎng)頁(yè)通過(guò)抓包(按下f12)課知道下面這個(gè)鏈接是返回評(píng)論信息,而且是個(gè)json

python爬蟲爬取球迷評(píng)論

python爬蟲爬取球迷評(píng)論

鏈接為:https://cache.zhibo8.cc/json/2018/nba/0517123898_384.htm?key=0.6512348313080727

通過(guò)多次分析知道上面加粗的是直播間的信息,后面的下劃線之后的是評(píng)論的頁(yè)數(shù),最后的key參數(shù)是個(gè)隨機(jī)數(shù),帶不帶上進(jìn)行請(qǐng)求都沒(méi)有關(guān)系

用代碼來(lái)獲取評(píng)論信息

def __get_json(self, index):
       url = 'https://cache.zhibo8.cc/json/2018/nba/0517123898_%d.htm?key=0.1355540028791382' % index
       response = requests.get(url)
       if response.status_code == 200:
           for item in response.json():
               # 寫入文件
               self.__write_file(item['content'])
               self.num += 1
           return 1
       else:
           return 0

評(píng)論信息有了,接著弄張?jiān)~云圖

def __get_wordcloud(self):
       with open('comments.txt', 'r', encoding='utf-8') as comments:
           text = comments.read()  # 加載數(shù)據(jù)
           words = ' '.join(jieba.cut(text, cut_all=True))  # 采用結(jié)巴全分詞模式
           image = np.array(Image.open('1.jpg'))  # 背景圖片
           # 初始化詞云
           wc = WordCloud(font_path=r'C:\Windows\Fonts\simkai.ttf',
                          background_color='white', mask=image,
                          max_font_size=100, max_words=2000)
           wc.generate(words)  # 生成詞云
           wc.to_file('img.png')  # 生成圖片
           image_file = Image.open('img.png')  # 打開(kāi)圖片
           image_file.show()

好了,代碼完成,看下效果:

python爬蟲爬取球迷評(píng)論

利用詞云圖一眼就可以看出球迷都在評(píng)論什么了,因?yàn)槲遗廊〉氖腔鸺鲌?chǎng)對(duì)戰(zhàn)勇士的第二場(chǎng)比賽,肯定討論最多的就是勇士火箭了,緊接的就是杜蘭特了,死亡之神,這場(chǎng)的杜蘭特超神拿了38分還是輸給了火箭,自然而然就是討論他最多了。還有就是這場(chǎng)站出來(lái)的塔克,三分6中5,還破了個(gè)人季后賽的最高得分,討論他也是很正常的事。還有一個(gè)很顯眼的就是第三節(jié),很多人都認(rèn)為勇士是“勇三瘋”,以為這場(chǎng)比賽勇士會(huì)在第三節(jié)爆發(fā)吧?其實(shí)這賽季的火箭第三節(jié)也是很強(qiáng)的,并不比勇士弱。

看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。

本文題目:python爬蟲爬取球迷評(píng)論
文章源于:http://bm7419.com/article2/jdcdic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、用戶體驗(yàn)、App設(shè)計(jì)、外貿(mào)網(wǎng)站建設(shè)、ChatGPT、網(wǎng)站內(nèi)鏈

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化