網(wǎng)站數(shù)據(jù)抓取與頁面流量排名深度分析

2022-12-23    分類: 網(wǎng)站建設(shè)

從關(guān)鍵詞,到內(nèi)容和頁面,完成了需求分析和生產(chǎn)。內(nèi)容在頁面上如何布局,如果處理好內(nèi)容的結(jié)構(gòu)化,從而更符合搜索引擎的口味,還有很多細致的工作要做,這里不展開。

抓取與收錄

搜索結(jié)果頁是站點之間競爭用戶的戰(zhàn)場,要想在競爭中獲勝,首先你得站到戰(zhàn)場上去。根據(jù)之前說到的搜索引擎的原理,我們知道,要在搜索結(jié)果頁中出現(xiàn),首先生產(chǎn)的頁面要被搜索引擎的蜘蛛抓取。蜘蛛發(fā)現(xiàn)網(wǎng)頁,正常情況下是通過站內(nèi)的鏈接,和站外的鏈接,按照廣度優(yōu)先的原則,提取頁面中導(dǎo)出的URL。一般來說,站長還可以通過提交Sitemap,Ping通知蜘蛛,手動提交等方式,幫助蜘蛛發(fā)現(xiàn)有效的URL。

頁面數(shù)據(jù)抓取

前面說到,通過鏈接抓取網(wǎng)頁,按照廣度優(yōu)先的原則。一般的小站,搜索引擎從起點頁抓取三四層的深度也就不錯了,一般這個起點頁都是網(wǎng)站首頁。所以SEO要將網(wǎng)站整體設(shè)計成扁平的結(jié)構(gòu),有些時候需要為蜘蛛搭一些梯子,幫助它在較短路徑上接觸到更多的URL。舉個例子,

網(wǎng)頁數(shù)據(jù)抓取

一般情況下,一個頁面內(nèi)導(dǎo)出鏈接不能過多,超過某個值蜘蛛就不抓了。之前的經(jīng)驗是100,但是這個數(shù)值還是跟網(wǎng)站和具體頁面有關(guān)。在網(wǎng)站層級和單頁導(dǎo)出鏈接總量兩個約束條件下,還有一點文章可做,那就是時間。單個頁面導(dǎo)出鏈接最多是100,如果我每天換掉其中的50個呢? 一個最簡單的實現(xiàn)方式是借助于緩存機制,固定的取50個,另外再在全集中隨機取50個,這50個設(shè)置緩存時間1天,1天后失效,再隨機取50個,這樣可以大化導(dǎo)出鏈接的時效性,就像廣告的分時段輪播一樣。這里的數(shù)字可以根據(jù)實效進行調(diào)整。站內(nèi)如此,對于批量交換的外鏈,也可以按照類似的方式實現(xiàn)。

對于移動頁面,有兩種主要的機制通知到蜘蛛PC頁與移動頁的對應(yīng)關(guān)系,一是在PC頁頭部加上mobile-agent的meta屬性,二是在站長工具提交PC/移動頁對應(yīng)關(guān)系的正則(也可以提交全量的URL地址對)。

抓取這個環(huán)節(jié)至關(guān)重要,站長平臺的抓取頻次,和通過accesslog分析得到的抓取明細,都需要時刻監(jiān)控。小站的log文件,市面上有些一些日志分析工具,自己寫也OK。對于大站的log,很多都存儲于hadoop這樣的分布式存儲上,一般需要定制程序去分析處理。為了即時分析處理,快速反饋,可能需要接入流式計算框架。

對于蜘蛛抓取行為數(shù)據(jù)的使用,可以用來評估蜘蛛對于站內(nèi)頁面價值的評定,可以用來反饋輔助抓取所做的一些優(yōu)化的效果,可以預(yù)估新生成頁面被搜索引擎接受的程度,等等。沒有使用價值的數(shù)據(jù)是沒用的,數(shù)據(jù)跟具體的應(yīng)用場景結(jié)合起來,才能體現(xiàn)其價值。

對于抓取的頁面,蜘蛛建立倒排索引后,會進行價值判定,按照價值高低,存儲在分級索引庫中。高級別的索引庫才會參與最終的搜索排序。

前段時間,圈子里流出了百度的一個搜索參數(shù),tn=json,以seo這個詞為例,查詢百度搜索前50條結(jié)果,查詢URL為,

http://www.baidu.com/s?wd=seo&pn=0&rn=50&tn=json

對于有程序基礎(chǔ)的同學(xué)們,json格式比網(wǎng)頁更易于處理。

這個方法只適用于PC端,對于移動端的收錄情況的判斷,還是要老老實實的拼接搜索地址URL,解析相應(yīng)結(jié)果文檔。

一般SEO開始學(xué)的時候,都會接觸到site語法,基本上所有常見的搜索引擎也都支持site語法去查詢域名或者目錄級的收錄量查詢。在site查詢語句的后面加上一個詞,可以查詢得到該域名與這個詞相關(guān)的頁面。比較有價值的是,site語法查出來的結(jié)果,按照網(wǎng)頁的價值倒序排列。這個特征便使得依據(jù)相關(guān)性內(nèi)鏈,提升第二頁/第三頁落地頁的排名成為可能。

排名與流量

對于有搜索量的詞,獲得好的排名,幾乎確定了能獲得流量。這里說幾乎,因為還有一個點展比(點擊量除以曝光量)的概念。按照谷歌的規(guī)律,PC搜索結(jié)果中,前四位獲得點擊的幾率是42%,12%,9%,6%。

先說排名。說到搜索排序,有很多場景下可以用到,比如在搜索結(jié)果頁中的推廣鏈接區(qū)域有個排序;在淘寶里面搜索,商品返回的結(jié)果列表有個默認的排序;App Store中搜索也會按照一定的規(guī)則返回結(jié)果列表;同樣的,在廣告投放中候選廣告創(chuàng)意去競爭一個展示機會時也有一個排序。這些排序與自然搜索的排序有一個共同點,即為了用戶體驗,將好的,最符合用戶需求的排在前面,從而提升用戶體驗。

影響自然搜索排序的因子應(yīng)該很多,眾所周知的,如網(wǎng)站自身的權(quán)威性與價值,網(wǎng)頁的導(dǎo)入鏈接權(quán)重,網(wǎng)頁結(jié)構(gòu)/速度,網(wǎng)頁內(nèi)容的原創(chuàng)性,以及最重要的,用戶搜索詞的出現(xiàn)頻次,頁面Title與H標簽中出現(xiàn)搜索詞的頻次,等等。這是事前的因素。

有一點特別要提及的,搜索引擎為了構(gòu)建良好的搜索競爭生態(tài),對新站有個補償機制。這也是實際有效的排序因子。

還有一點事后的因素,獲得排名,用戶點擊,之后是否還點擊了別的搜索結(jié)果。如果你的頁面排在某個詞的搜索結(jié)果第一位,搜索用戶點擊了你以后,還總會點擊第二位的結(jié)果,那顯然第二位的結(jié)果更符合用戶需求,排序如何變化可想而知。這點可以從百度公開的專利中找到依據(jù),點擊器也是利用這個原理來實現(xiàn)的。

獲得排名的搜索結(jié)果,展現(xiàn)給用戶的信息包括,頁面Title,Description或者頁面內(nèi)提取的信息摘要,縮略圖,首頁的子鏈接。后面兩者可能有,也可能沒有。還有一個相對次要的因素,搜索結(jié)果的域名/鏈接摘要。如何在獲得曝光的情況下,吸引用戶點擊? 除了讓自己的排名盡量靠前外,可以做的事情還包括,優(yōu)化Title/Description的文案,在頁面主體區(qū)域提供合適尺寸的圖片增加被作為縮略圖的幾率等。搜索結(jié)果條目示例如下:

百度自己的產(chǎn)品雖然有被提權(quán)的嫌疑,但是從SEO的角度看,仍然有很多值得學(xué)習(xí)的地方。對于一些如果不確定,可以研究百度自己的產(chǎn)品,看具體的實現(xiàn)方式。

經(jīng)過了關(guān)鍵詞,內(nèi)容,頁面,抓取,索引/收錄,排名,流量,這個漫長的鏈條,我們再回頭來看封面上的漏斗模型,可以從中反思,我們的短板在哪里,機會又在哪里。如果將這些數(shù)據(jù)匯集在一起,隨時利用這個數(shù)據(jù)鏈去監(jiān)控網(wǎng)站的SEO狀況,利用數(shù)據(jù)對一些優(yōu)化操作進行效果監(jiān)控,甚至通過定義一些自動化的策略,使得系統(tǒng)自己可以實施一些優(yōu)化操作,并利用數(shù)據(jù)反饋,再調(diào)整,再優(yōu)化,實現(xiàn)智能優(yōu)化,真正發(fā)揮數(shù)據(jù)的威力。

網(wǎng)頁名稱:網(wǎng)站數(shù)據(jù)抓取與頁面流量排名深度分析
URL地址:http://www.bm7419.com/news4/224904.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、用戶體驗、ChatGPT、手機網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、營銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)