什么是文本的粒度?我們用什么來衡量文本粒度?

2022-06-17    分類: 網(wǎng)站建設(shè)

一般而言,大型搜索引擎的索引都采用分布式系統(tǒng)。不同文本的索引,被某種hash算法“分配”到了某臺機器。理論上講,索引的數(shù)量的增長,只會造成所需機器的增長,而對整體系統(tǒng)性能的消耗影響比較小。所以一般搜索引擎會從性價比的角度來考慮索引數(shù)量與機器數(shù)量的折衷,也就是召回與硬件投入的折衷。粒度分析對于折衷的性價比也有一定的貢獻,在粒度層次里,當(dāng)粒度逐漸變小的過程中,我們并不一定對所有小粒度詞都建索引,而是選擇“更有可能召回相關(guān)結(jié)果”的小粒度詞。詞匯的什么性質(zhì)決定了“更有可能召回相關(guān)結(jié)果”?

傳統(tǒng)的搜索引擎的定義,是指一種對于指定的查詢(Query),能夠返回與之相關(guān)的文檔集合(Documents)的系統(tǒng)。而百度將這個定義更加豐富化,即搜索引擎能夠幫助人們更方便的找到所求。這里的“所求”,比“文檔”更加寬泛和豐富,比如一個關(guān)于天氣的查詢,直接返回一個天氣預(yù)報的窗口,而非一篇關(guān)于天氣的文檔;再如一個關(guān)于小游戲的查詢,直接返回這個小游戲的Flash頁面而非簡單的介紹性的文字。

百度對Query深刻的理解,源于自然語言處理技術(shù)在其中發(fā)揮的巨大作用。對搜索引擎而言,文本切分是最基礎(chǔ)也是最重要的自然語言問題之一。今天,我們就來談?wù)勎谋厩蟹至6扰c搜索引擎的關(guān)系。

什么是文本的粒度?我們用什么來衡量文本粒度?專名是一類比較特殊的詞,盡管所含字數(shù)很多,但其實只表達一個意思,如“步步驚心”,“家的n次方”這樣的電影、電視劇的名稱,粒度是很小的。機構(gòu)名、人名等屬于有內(nèi)部結(jié)構(gòu)的專名,比電影名的粒度稍大一些。

一般我們采用倒排索引的方式來實現(xiàn)這個系統(tǒng)。所謂倒排索引,就是對關(guān)鍵字建立索引,記錄包含這個關(guān)鍵字的文檔集合D。對于請求的關(guān)鍵字集合,找出所有關(guān)鍵字對應(yīng)的索引,并對索引求交,最后返回同時存在于所有索引中的文檔。

在百度,我們不僅允許用戶輸入關(guān)鍵字,也可以輸入任何長度在一定范圍內(nèi)的文本。此時我們需要對文本做一定處理,切分成一系列關(guān)鍵字,從而能夠從倒排索引中找出對應(yīng)的文檔。

既然粒度是衡量文本所含信息量的大小,那么緊密度就是描述文本所含信息緊密程度的量。再說的通俗一些,緊密度就是信息被人們表達和接受的穩(wěn)定程度。穩(wěn)定有兩種解釋,第一,穩(wěn)定是相對于臨時而言的。一般來說,如果信息是因為某些因素臨時組合在一起,那就是不穩(wěn)定的,即不緊密。比如許多動賓結(jié)構(gòu)的短語(“過馬路”,“踢足球”),定中結(jié)構(gòu)的短語(“紅蘋果”,“豪華轎車”)。第二,穩(wěn)定是相對于順序不固定而言的。如果同樣一個信息,內(nèi)部的子信息順序可以互換,那么這個詞匯就不穩(wěn)定,即不緊密。比如一些大粒度的詞匯“鼠標護腕墊”、“護腕鼠標墊”。

當(dāng)前文章:什么是文本的粒度?我們用什么來衡量文本粒度?
URL分享:http://bm7419.com/news/168522.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、App開發(fā)、品牌網(wǎng)站制作、靜態(tài)網(wǎng)站、移動網(wǎng)站建設(shè)、網(wǎng)站改版

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運營