如何通過網絡日志分析蜘蛛訪問以及網站的現(xiàn)狀

2023-08-12    分類: 網站建設

“網站日志”是記錄web服務器接收處理請求以及運行時錯誤等各種原始信息。網站日志在ftp里可以找到,以log結尾的文件!如圖:


上圖是筆者網站26號的網站日志,那么我們如何去分析它
我們可以看到上圖中的第一段代碼:
5.10.83.26 - - [25/Oct/2013:01:32:40 +0800] "GET /flxc/28.html HTTP/1.1" 200 13293 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"
5.10.83.26表示訪問你網站的IP
[25/Oct/2013:01:32:40 +0800]訪問時間(年月日時分秒)+時區(qū)
GET表示服務器的動作
/flxc/28.html HTTP/1.1表示根據HTTP/1.1協(xié)議抓取/flxc/28.html 這一個頁面
200表示服務服務器的響應狀態(tài)代碼,那么200這個代碼表示200 代表蜘蛛成功抓取了頁面更新的信息?。ǜ剑宏P于其他服務器的響應代碼可到百度搜索,解釋的很清楚)
13293 表示抓取的字節(jié)有多少
"Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)表示瀏覽器用戶瀏覽器的版本操作系統(tǒng)的版本信息。
通過上的分析主要抓住什么時間點什么搜索引擎過來爬行并抓取了什么頁面,以及爬行的端口

當然一天那么多個ip訪問你的網站,作為站長的不可能一條條的去看。我們可以借助工具或者根據你網站的搜索引擎來看
比如你只做百度,那么你可以屏蔽其他搜索引擎來抓取,這樣看到的就是百度蜘蛛的信息。
當然大部分站長都還是借用工具去了解網站日志!在這里我也分享一下26號的網站日志情況:


我們可以看到日記打開后的整個頁面狀況,有些情況一目了然。這里不一一分析:小七選幾個要注意的點來分析一下:
首先:看到“頁面抓取”


你會發(fā)現(xiàn),目前蜘蛛的抓取頁面狀況。因為筆者主要是做百度搜索引擎。這里就從百度搜索引擎來分析,對于其他的搜索引擎可以按圖照搬:

1、你可以看到百度在抓取的時候出現(xiàn)了index.html這個頁面,這是dede里出現(xiàn)的一種狀況。設置它的頁面返回時是/,而不是/index.html

2、sitemap.xml 這文件的作用簡單說一下,第一幫助網站收錄 第二,讓搜索引擎更加了解你的網站 ,那么這里有個技巧,把sitemap.xml放到根目錄下的同時,把對應的指令放到robots.txt里面

3、可以看到蜘蛛主要訪問的是主頁,那么你近期可能要做的引導蜘蛛訪問你的欄目頁!

再看到“關鍵詞分析”


可以看到蜘蛛抓取進入我網站的大部分是網址占了絕大部分。那比如我網站的定位是垃圾分類培訓_垃圾分類宣傳_社區(qū)垃圾分類解決方案服務商,讓社區(qū)應我們的努力而變的更美。那么我可以選垃圾分類來做主關鍵詞,那么表示近期應該大部分外鏈以垃圾分類描文本的形式來做

接著:我們看到蜘蛛狀態(tài)


可以看我目前的網站404頁面的鏈接,這樣你可以及時清理死鏈!或者到站長平臺提交死鏈!

這樣分析下來,相信你對自己的網站現(xiàn)狀改做什么,應該比別人清楚,當然利用這軟件的不足之處,就是無法看到蜘蛛訪問的時間點。

文章名稱:如何通過網絡日志分析蜘蛛訪問以及網站的現(xiàn)狀
網頁路徑:http://www.bm7419.com/news21/274921.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供Google、網站收錄、網站設計公司營銷型網站建設、網站維護、外貿網站建設

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

小程序開發(fā)