微信新的熱文定義促進內容價值多元化

2022-07-08 分類：網站建設

沒有一個時代比今天更重視技術對于內容的價值。

越來越多的人們，尤其是年輕人，更加愿意使用和相信算法生成和推送的內容。算法之于文章，扮演的就是一個“星探”的角色。它需要在剛剛見面的幾分鐘內，就判斷出哪個具有“明日之星”的潛力，以便分配更多的資源幫助它“走花路”，而不是只會在對方走紅之后，才說出“我早就知道”的馬后炮。

不幸的是，大部分基于內容特征和協(xié)同過濾算法的推薦系統(tǒng)，都無法“識英雄于微時”——在文章發(fā)出早期就判斷出其受歡迎程度。這就導致一些原本質量很高的文章，很可能因為初始瀏覽量不夠而被埋沒，“標題黨”“咪蒙系”反而有可能得到越來越多的推薦和熱度。

如何在過剩的信息洪流中將用戶最感興趣、最具潛力的資訊率先甄選出來，是建立一個良性內容生態(tài)的關鍵，卻也是困擾各大巨頭、懸而未決的技術難題。

最近，微信的研究人員就提出了一種新的神經網絡方法DFTC，用來更好地預測網絡文章的熱度。由于該模型表現(xiàn)出了良好的性能，已經被AAAI 2019 大會接收, 并在大會上作了主題報告。

它在哪些領域進行了創(chuàng)新？又能為現(xiàn)有的爆款內容生產機制帶來哪些改變呢？渠道分發(fā)哪家強？熱度預測又面臨哪些難題？

在介紹新方法之前，有必要先梳理一下，當前的推薦算法都是如何進行熱度預測的？

如何進行熱度預測

一種是基于聚合瀏覽量的時間演進過程，比如：今日頭條的熱門推薦算法，就是優(yōu)先推薦熱門的文章。

這種方式的優(yōu)勢是：已知的歷史熱度會越來越接近整體受歡迎程度，因此，模型的表現(xiàn)也會隨著文章發(fā)布的時間而變得越來越好。

但由于很多外部因素帶來的意外增長，都是不可預測的，時間熱度模型卻對此卻無能為力。即使引入人工干預，除非像咪蒙系一樣憑借大量經驗和策劃，否則也很難確定爆款文章可能出現(xiàn)的時間，以及生命力有多強。

微信新的熱文定義促進內容價值多元化如何進行網站優(yōu)化

二是通過預測內容特征的受歡迎程度，來推斷整體可能的熱度。

Yahoo Today就曾經用新聞的點擊率來進行畫像，并用feature-based learning方法來建模用戶對資訊感興趣的程度。

其中包括靜態(tài)特征，比如：資訊的類目、主題等；以及動態(tài)特征，如某條資訊、某類資訊分時間段的各種統(tǒng)計值等。

通過這種方法，Yahoo發(fā)現(xiàn)在推薦新聞時，娛樂類新聞天然比體育類新聞點擊率高。

由于內容特征不會隨著時間而變化，因此很多不那么刺激眼球的內容，也可以獲得公平的曝光機會，使得該模型在早期階段效果更為可靠。

但問題也隨之而來，網絡文章通常是長文本，加上越來越復雜的元數(shù)據特征（如標題、類別、作者信息等），建模難度也日漸增大，目前還沒有此類模型能夠完全地利用這些數(shù)據。

不難發(fā)現(xiàn)：不論是基于時間演進，還是基于內容特征，都不足以支撐內容終極價值的判斷標準。只有雙管齊下，才能發(fā)揮出的預測效果。然而，這對于算法工程師來說是極大的挑戰(zhàn)。

DFTC：改寫熱度預測的叢林法則

為了改變這一現(xiàn)狀，微信的研究人員就此提出了一種將時間過程，與內容特征深度地融合到一起的神經網絡方法——Deep Fusion of Temporal process and Content features，簡稱DFTC，來構建更合理的熱度預測系統(tǒng)。

他們收集了2018年5月-7月的6萬篇微信公眾號文章的熱度數(shù)據，將文章熱度分為 3 類：爆款（閱讀量>10000），冷門（閱讀量<100）和普通 (其它)。最終得到一個類別基本平衡的數(shù)據集用作訓練 (training set) 和測試 (balanced test set)，并建立了一個2 萬篇文章構成的隨機測試集 (random test set)。

微信新的熱文定義促進內容價值多元化如何進行網站優(yōu)化

DFTC一共包含三個部分：

時間過程建模；內容特征建模；注意融合。

首先，采用卷積神經網絡（Attention CNN）來提取文章增長和下降的短期波動情況，比如：一篇文章每小時瀏覽量的變化情況。

接著，再利用循環(huán)神經網絡（RNN）得出文章受歡迎程度的長期增長趨勢。

然后，利用分層注意網絡（HAN）來獲取文本特征，使用嵌入技術來學習各種元數(shù)據的特征，并進行建模，得到一個內容特征模型。

接下來，將建好的時序模型和內容模型利用注意力機制，動態(tài)地組合到一起，生成一個能夠體現(xiàn)出文章熱度演變過程多樣性的靈活權重（popularity level）。

DFTC的創(chuàng)新之處是，解決了三個懸而未決的行業(yè)難題：

如何預測意外情況帶來的短期波動（Attention CNN自動學習短期波動，不做具體假設或人工設計）；如何解決元數(shù)據多模態(tài)的識別難題（embedding技術可以識別短文本描述、標題和圖像等多種表現(xiàn)形式）；相同內容特征與不同生命周期階段的連接（Attention融合機制，生成一個靈活權重而非線性組合）。

至此，一個更優(yōu)秀的熱度預測模型就誕生了。

實驗數(shù)據顯示：“兩手抓兩手都要硬”的DFTC，在文章發(fā)布后的前5個小時，其預測的準確度相比其他單一性解決方案強出了不少。

微信新的熱文定義促進內容價值多元化如何進行網站優(yōu)化

不難發(fā)現(xiàn)：DFTC正是基于對短期瀏覽量、意外因素、內容關鍵詞等可能，決定最終受歡迎程度的多重因素進行了全面統(tǒng)籌，才能在初始期就做出更精準的判斷。

因此，一些枯燥無趣的內容會被率先過濾掉，有潛力的優(yōu)質文章也更容易得到推薦，避免了“酒香也怕巷子深”的命運。

或許不久以后，依靠經驗和直覺打造爆款，和依靠大數(shù)據與關鍵詞打造爆款，這些技術蠻荒時代的叢林法則慢慢都會被更好的生態(tài)機制所取代。

熱度預測照亮的未來，不只屬于文字。

個性化推薦系統(tǒng)既不能完全遵循用戶興趣標簽與內容特征抽取的匹配，那會導致越來越嚴重的信息繭房（“喜歡你就多看點”）和回聲室效應（“你反對的絕不出現(xiàn)”）；也不能單純依靠文章的生命周期來判斷，讓優(yōu)質創(chuàng)作者在平臺偏向（“這篇會火都給我看”）之下涼了熱血。

因此單純從數(shù)據上看，DFTC是成功的。

目前，微信已經將該模型作為系統(tǒng)選擇和推薦文章的重要依據，開始在“看一看”等產品場景中進行實踐。

從更廣泛的實用性來說，DFTC所代表的思路，用深度學習技術和思維解決預測問題，正在成為業(yè)界共識。

“在任意時間預測網絡內容的最終熱度”，DFTC不僅僅只有資訊平臺的推薦算法，在廣告、搜索等業(yè)務也能起到很強的推動作用，提高內容的分發(fā)效率。

而就在前不久，微軟也提出過一個跨產品的用戶行為模型，將用戶在搜索、新聞、appstore、xbox等多個產品線上的行為（反饋）統(tǒng)一在一起。這樣訓練出的深度學習網絡，就能很好地優(yōu)化和解決單個產品上（用戶）冷啟動、信息稀疏等問題。

也就是說：可能你搜索了“房價會不會繼續(xù)上漲”，打開新聞App就會收到“房價可能回到三年前”的新聞，是不是有點細思極恐呢？

這也反映出深度學習進行熱點預測所呈現(xiàn)的新的問題：

平臺對熱點的評估只是一種模仿，好的閱讀體驗究竟應該如何量化？

為了更好的閱讀體驗，讀者需要讓渡多少個人隱私？

當然，現(xiàn)在想這些還有點為時過早。無論如何，熱度預測模型能力的升級，正在讓內容產業(yè)關于價值的標尺越來越多元，這可能是算法最具人性的一次。

文章題目：微信新的熱文定義促進內容價值多元化
分享網址：http://www.bm7419.com/news/175640.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供商城網站、App設計、定制開發(fā)、域名注冊、網頁設計公司、虛擬主機

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

成都創(chuàng)新互聯(lián)科技: SEO優(yōu)化可不僅是推廣 2022-07-08
好的網站SEO能大概率將訪問轉化成用戶 2022-07-08
網站SEO診斷分析具體是什么？ 2022-07-08
成都app開發(fā)，其實很簡單 2022-07-08
注冊域名去哪個網站？ 2022-07-08
成都微博營銷推廣有什么好方法？ 2022-07-08