rasa中文語言模型spacy的配置

本篇內(nèi)容介紹了“rasa中文語言模型spacy的配置”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠?qū)W有所成!

成都創(chuàng)新互聯(lián)公司服務電話:18982081108,為您提供成都網(wǎng)站建設網(wǎng)頁設計及定制高端網(wǎng)站建設服務,成都創(chuàng)新互聯(lián)公司網(wǎng)頁制作領(lǐng)域10年,包括成都LED顯示屏等多個方面擁有多年的網(wǎng)站運維經(jīng)驗,選擇成都創(chuàng)新互聯(lián)公司,為網(wǎng)站錦上添花。

spacy最新版本開始支持中文

1, 下載 中文語言模型 zh_core_web_md-2.3.1.tar.gz

     下載地址:https://spacy.io/models/zh

2,rasa 聊天機器人 config.yml 改進 配置:

language: zh
pipeline:
  - name: SpacyNLP                   # 預訓練詞向量
    model: "zh_core_web_md"
  - name: SpacyTokenizer          # 文本分詞器
  - name: SpacyEntityExtractor  #文本特征化
  - name: SpacyFeaturizer         #特征提取器 將一句話變成一個向量
    pooling: mean
  - name: CountVectorsFeaturizer  #創(chuàng)建用戶信息和標簽(意圖和響應)的詞袋表征 為意圖分類和 response selection創(chuàng)建特征
  - name: CountVectorsFeaturizer
    analyzer: "char_wb"
    min_ngram: 1
    max_ngram: 4
  - name: DIETClassifier              #意圖分類
    epochs: 100
  - name: EntitySynonymMapper   #同義實體
  - name: ResponseSelector
    epochs: 100

# Configuration for Rasa Core.
# https://rasa.com/docs/rasa/core/policies/
policies:
  - name: MemoizationPolicy
  - name: TEDPolicy
    max_history: 5
    epochs: 100
  - name: MappingPolicy
~

直接在nlu.md中寫入中文:

## intent:greet
- 你好
- 您好
- hi
- 早上好
- 中午好
- 晚上好

## intent:goodbye
- 再見
- 回頭見
- 拜拜

## intent:affirm
- 好的
- 好
- 行

## intent:deny
- 不行
- 不可以
- 不同意
- 沒門

## intent:bot_challenge
- 你是人嗎
- 你是機器人嗎
- 我在和機器人說話嗎
- 我在和人說話嗎?
~

3,如何挑選哪個意圖分類的組件?

組件有兩類 預訓練Embedding 和 監(jiān)督式Embedding。

第一類 預訓練Embedding: sklearnintentclassifier

使用 spaCy library加載預訓練語言模型,包含中文。

什么時候使用此組件? 滿足項目場景的預訓練詞嵌入存在,且能適用于項目時。

第二類 監(jiān)督式Embedding:embeddingintentclassifier

從0開始訓練詞嵌入。通常和 countvectorsfeaturizer 組件一起使用。

特點:需要足夠的訓練數(shù)據(jù),此分類器獨立于語言,只帶多意圖的消息,十分靈活。

“rasa中文語言模型spacy的配置”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!

網(wǎng)頁標題:rasa中文語言模型spacy的配置
URL標題:http://bm7419.com/article6/igsoog.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、搜索引擎優(yōu)化、外貿(mào)網(wǎng)站建設、用戶體驗、品牌網(wǎng)站建設、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)