分析基于用戶瀏覽記錄的網(wǎng)頁rank思路

2024-03-27    分類: 網(wǎng)站建設

Google的pagerank就不多介紹了,一個能衡量網(wǎng)頁重要程度的算法,本質(zhì)上是網(wǎng)頁相互投票的結(jié)果,基于這個特性,我們可以通過使用sitemap讓搜索引擎盡可能瀏覽到多的網(wǎng)站內(nèi)容,也可以通過多做外鏈來提高網(wǎng)站的PR值,達到SEO的目的。

市場上大多數(shù)搜索引擎都在使用pagerank類似的方法,且為了保證公正性,都采用純機器運行的方式,通過網(wǎng)頁爬蟲來遍歷網(wǎng)站,這就出現(xiàn)了一些有趣的問題:

1、一個網(wǎng)頁的內(nèi)容是很棒的,但是由于外鏈太少,爬蟲在設定的深度閾值下可能無法爬到它,成為了少人問津的“暗內(nèi)容”

2、部分網(wǎng)站因為PR值很高,即使轉(zhuǎn)載的內(nèi)容或是價值不高的內(nèi)容,也可能有很好的檢索排名,即使技術領先的搜索引擎采用語義網(wǎng)絡的方法識別優(yōu)質(zhì)內(nèi)容,效果依然不夠好

為了規(guī)避以上問題,引入用戶數(shù)據(jù)來評判網(wǎng)頁內(nèi)容的重要性及質(zhì)量,是一個可研究方向,怎么做呢?

假設: 瀏覽行為及時長是對網(wǎng)頁質(zhì)量的最好評判,相當于用戶標注,在大規(guī)模數(shù)據(jù)的情況下,效果應優(yōu)于機器

原理:

1、通過瀏覽器或其他客戶端軟件,最好的防火墻或其他安全軟件,獲取用戶瀏覽日志,上傳給搜索引擎的爬蟲數(shù)據(jù)庫,即是得到用戶瀏覽數(shù)據(jù)

2、爬蟲匹配已有索引庫,找到未索引內(nèi)容,爬之

3、利用用戶日志給網(wǎng)頁投票,瀏覽時間越長權(quán)重越高,計算出網(wǎng)頁的rank

缺陷:

1、依賴客戶端

2、有用戶隱私問題

規(guī)避:

1、提出云殺毒、云防御、云安全,讓用戶同意上傳瀏覽記錄

2、偷偷上傳,將瀏覽記錄(其他文件也可以)加密并分拆上傳,在服務器端組合還原

好了,思路說完了,來給它起個響亮高深名字:peoplerank

最后,我這是很嚴肅地說技術。

本文來自成都品牌網(wǎng)站建設網(wǎng)站設計公司-創(chuàng)新互聯(lián)

網(wǎng)站題目:分析基于用戶瀏覽記錄的網(wǎng)頁rank思路
URL網(wǎng)址:http://bm7419.com/news14/322064.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供響應式網(wǎng)站自適應網(wǎng)站、虛擬主機、企業(yè)建站、建站公司、定制網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設