語義圖譜技術(shù)介紹-創(chuàng)新互聯(lián)

什么是語義圖譜?

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、成都微信小程序、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了郎溪免費(fèi)建站歡迎大家使用!

語義圖譜是一種新的知識表征方法。在語義圖譜里,一條知識是由一個(gè)問法+一個(gè)知識點(diǎn)+一個(gè)主題表示的。

如上圖所示:“什么是彩虹”+“彩虹是氣象中的一種光學(xué)現(xiàn)象。當(dāng)陽光照射到半空中的水珠時(shí),光線被折射及反射,在天空上形成拱形的七彩光譜?!?“彩虹”構(gòu)成了“什么是彩虹”這條知識。

一個(gè)問題的多種表達(dá)并不能構(gòu)成新的知識?!安屎绲亩x”+“彩虹是氣象中的一種光學(xué)現(xiàn)象。當(dāng)陽光照射到半空中的水珠時(shí),光線被折射及反射,在天空上形成拱形的七彩光譜?!?“彩虹”不是一條新知識,和“什么是彩虹”這條知識是一條知識。

“彩虹有幾種顏色”+“彩虹有紅橙黃綠青藍(lán)紫七種顏色”+“彩虹”構(gòu)成了一條新知識。

“為什么說彩虹有七種顏色”+“陽光本來就包含這些顏色,混在一起人眼看起來就成白色。彩虹是經(jīng)過陽光折射形成的,顏色變化非常豐富,只不過粗略的說是七種顏色?!?“彩虹”構(gòu)成了一條新知識。

知識點(diǎn)不變的不是新知識,知識點(diǎn)變化的形成新知識。

一個(gè)主題的各個(gè)知識點(diǎn)以及關(guān)于每個(gè)知識點(diǎn)的不同問法,構(gòu)成了一個(gè)主題的語義圖譜。主題可能是個(gè)詞,也可能是個(gè)句子;可能是個(gè)事物,也可能是個(gè)過程。

例如:如果把“小雞孵化的過程”作為一個(gè)話題,它的知識點(diǎn)就包含“小雞孵化一共需要大約22天時(shí)間?!薄靶‰u孵化需要適宜的溫度和濕度,還要重視通風(fēng)。適當(dāng)溫度:溫度控制在37.1~37.2℃。適當(dāng)濕度:濕度控制在70~80%?!薄靶‰u可以進(jìn)行人工孵化”“小雞孵化選擇好孵化用的種蛋。種蛋的來源必須是優(yōu)質(zhì)無病害的,然后觀察雞蛋表面,好的雞蛋應(yīng)該是蛋殼厚薄均勻、顏色正、無破損的。用燈照檢驗(yàn)時(shí),蛋黃流動性大、蛋內(nèi)有氣泡、個(gè)頭畸形等不能列入終種蛋的選擇”等等。針對不同知識點(diǎn),又可以有各種不同的問法。

怎么構(gòu)建一個(gè)語義圖譜?

第一步:在構(gòu)建一個(gè)語義圖譜時(shí),先要確定一個(gè)主題。語義圖譜是圍繞主題建立的,主題是語義圖譜的核心。主題可以是事物,也可以是規(guī)則、過程、事件等等。比如:獅子、彩虹、煤矸石、彩虹、獅子、老王、小雞、煤炭形成的過程、足球比賽的規(guī)則、第二次世界大戰(zhàn)、小雞孵化的過程、足球比賽的規(guī)則、商王朝滅亡的過程、三國演義的故事故事梗概等等都可以是一個(gè)主題。

第二步:根據(jù)對本主題的相關(guān)描述生成知識點(diǎn)。對一個(gè)主題的描述一般是一段文字或者一篇文章。根據(jù)訓(xùn)練好的模板或者通過人工,對這段文字或者文章進(jìn)行分割,生成不同的知識點(diǎn)。

不同性質(zhì)的主題有不同的知識點(diǎn)。比如關(guān)于一個(gè)人物劉備的知識點(diǎn)應(yīng)該包含“劉備字玄德,三國時(shí)期蜀漢開國皇帝,謚號昭烈皇帝,史家又稱為先主。劉備是漢朝的宗室,漢中山靖王劉勝的后代,是三國時(shí)期著名的政治家,221年在成都稱帝,國號漢,史稱蜀或蜀漢。223病逝于白帝城,謚號昭烈帝,廟號烈祖,葬惠陵?!薄皠?23病逝于白帝城,謚號昭烈帝,廟號烈祖,葬惠陵。”“劉備是三國時(shí)期蜀漢開國皇帝?!薄皠涫侨龂鴷r(shí)期著名的政治家?!钡鹊?。對于第一個(gè)知識點(diǎn)的提問方式可能有“劉備是誰”“介紹下劉備”“劉備的簡介”“劉備的生平”等等。

對于一個(gè)動物,知識點(diǎn)也是有限的。比如針對“獅子”這個(gè)主題的知識點(diǎn)應(yīng)該包含“獅子(lion)是唯一的一種雌雄兩態(tài)的貓科動物,是地球上力量強(qiáng)大的貓科動物之一,獅子生存的環(huán)境里,其他貓科都處于劣勢。漂亮的外形、威武的身姿、王者般的力量和夢幻般的速度完美結(jié)合,贏得了萬獸之王的美譽(yù)。”“獅子是哺乳動物貓科豹屬,可分為兩個(gè)亞種,非洲獅及亞洲獅?!薄蔼{子原來分布于除了熱帶雨林地區(qū)以外的非洲各地一起南亞和中近東地區(qū),現(xiàn)在除了印度的吉爾以外亞洲其它地方的獅子均已經(jīng)消失,北非也不再有野生的獅子,目前獅子主要分布于非洲撒哈拉沙漠以南的草原上,因此現(xiàn)在基本可以算是非洲的特產(chǎn)?!薄蔼{子是唯一成群生活的貓科動物,雌雄獅在群中分工不同,由母獅捕食。”“獅體重在120—250公斤,體長140—192厘米?!薄皡^(qū)別于其它貓科動物的是雄獅有明顯的鬃毛,為的是相互打斗時(shí)起保護(hù)頸部的作用。尾端的角質(zhì)刺也是顯著特征。獅子還是貓科動物中唯一能真正發(fā)出吼叫的動物,吼聲可傳到八九公里以外?!薄蔼{子的視力極佳,在很遠(yuǎn)以外就能發(fā)現(xiàn)獵物,集體捕食,速度快且效率高。 ”“獅子主要捕食有蹄類,如:牛羚、大羚羊、斑馬,有時(shí)也捕食大象、犀牛?!睂ψ詈笠粋€(gè)知識點(diǎn)的問法可能有“獅子喜歡吃什么東西”“獅子主要的捕食對象”“獅子的食性”等等。

第三步:根據(jù)訓(xùn)練好的模板或者通過人工,對每個(gè)知識點(diǎn)從不同角度生成不同的問題。

對于一個(gè)知識點(diǎn),用戶從不同角度會產(chǎn)生不同的問法。比如對于“劉備是三國時(shí)期蜀漢開國皇帝”這個(gè)知識點(diǎn),用戶從不同角度的提問可能有“劉備是什么時(shí)期的開國皇帝”“劉備是三國時(shí)期的開國皇帝嗎”“誰是三國時(shí)期蜀漢的開國皇帝”等等。

對于同一性質(zhì)的主題,知識點(diǎn)有相似的結(jié)構(gòu),可以通過歸納總結(jié)建立模型。兩個(gè)主題性質(zhì)越接近,語義網(wǎng)絡(luò)的結(jié)構(gòu)就越相近。比如,關(guān)于人的語義網(wǎng)絡(luò)結(jié)構(gòu)就是基本類似的。劉邦、劉備、張飛、朱元璋、孫悟空、獨(dú)孤求敗等等,他們的語義網(wǎng)絡(luò)結(jié)構(gòu)就基本相似。劉邦、劉備、朱元璋的語義網(wǎng)絡(luò)結(jié)構(gòu)就更加相似。

語義圖譜怎樣生成?

語義圖譜可以從一篇對某個(gè)對象的描述文章生成。具體生成過程包含以下幾步:

第一步:生成模板。根據(jù)多篇特征相似的文章生成語義圖譜模板。這個(gè)生成的過程可以用機(jī)器學(xué)習(xí)也可以人工加工。例如,描述動物的語義圖譜模板經(jīng)過分析對獅子、老虎、大象的描述就可以提取共同特征生成模板。模板生成過程主要是對文章分段的過程,和生成問法模板的過程。

第二步:根據(jù)模板生成知識。

首先是根據(jù)原始材料確定主題,然后根據(jù)模板對文章進(jìn)行分段生成知識點(diǎn)(答案),然后根據(jù)模板生成不同的問法(問題)。最后根據(jù)主題、知識點(diǎn)、問法生成語義圖譜。

語義圖譜有什么用?

語義圖譜主要是應(yīng)用在自然語言問答領(lǐng)域的。當(dāng)用戶提問時(shí),把用戶提問和語義圖譜中的問題(問法)做對比。如果語義相似,把知識點(diǎn)作為答案輸出。語義圖譜中的問法是鏈接知識點(diǎn)和用戶提問的橋梁。

根據(jù)一個(gè)語義圖譜生成一篇文章。同樣的道理,也可以把一篇文章變成一條條的知識,這些相關(guān)的知識,構(gòu)成了一個(gè)語義圖譜。如下圖所示:

語義圖譜怎么用?

語義圖譜主要是應(yīng)用于問答的。具體的應(yīng)用過程是,先用語義圖譜構(gòu)建好知識庫,然后當(dāng)用戶提問時(shí),把用戶提問和語義圖譜里的問法進(jìn)行語義相似對比,如果有語義相似的問法,則把對應(yīng)的知識點(diǎn)當(dāng)成答案輸出。具體業(yè)務(wù)流程如下:

  1. 構(gòu)建好語義圖譜。
  2. 根據(jù)上下文確定當(dāng)前對話的主題。根據(jù)主題找到相應(yīng)的語義圖譜。
  3. 當(dāng)用戶提問時(shí),把用戶輸入和語義圖譜的問法做語義相似對比。
  4. 如果用戶提問和語義圖譜的問法語義有相似,把知識點(diǎn)作為答案輸入。

我們的技術(shù)語義圖譜是為自然語言問答而生的。當(dāng)用戶提問“獅子喜歡吃什么東西”“獅子主要的捕食對象”“獅子的食性”等等,通過語義網(wǎng)絡(luò)都會指向“獅子主要捕食有蹄類,如:牛羚、大羚羊、斑馬,有時(shí)也捕食大象、犀牛”這個(gè)知識點(diǎn)。

如果用傳統(tǒng)技術(shù)知識圖譜處理這個(gè)事情就會比較力不從心,它們是為搜索設(shè)計(jì)的,不是為問答設(shè)計(jì)的。它們處理關(guān)鍵字,理解不了句子的細(xì)微差別。比如“獅子喜歡吃什么東西”“獅子主要的捕食對象”“獅子的食性”三句話里實(shí)體詞是不一樣的,會被知識圖譜當(dāng)成不同的知識點(diǎn)。在語義圖譜看來這三個(gè)問題指向的是一個(gè)知識點(diǎn)。

在實(shí)際的自然語言問答過程中,用戶的輸入一般是口語化的句子,是在一定的對話場景里。需要系統(tǒng)對用戶的輸入做精細(xì)化處理。需要系統(tǒng)功能分清楚語義非常接近的句子。需要系統(tǒng)分清楚哪些提問指向相同的知識點(diǎn)。這些都是知識圖譜不能解決的問題。語義圖譜本身存儲的就是句子,比知識圖譜存儲的實(shí)體和關(guān)系要更精細(xì),更適合與用戶輸入做對比。

用知識圖譜做問答,只能處理簡單的句子或者命令,不能處理復(fù)雜的句子。用語義圖譜處理問答,能有效提高問答準(zhǔn)確率,處理口語、倒裝句等各類句子。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧

文章標(biāo)題:語義圖譜技術(shù)介紹-創(chuàng)新互聯(lián)
文章出自:http://bm7419.com/article36/dehjpg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設(shè)Google、面包屑導(dǎo)航定制網(wǎng)站、App設(shè)計(jì)、網(wǎng)站設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化