本公開公開了一種模型訓練方法、裝置、設備、存儲介質和程序產品,涉及人工智能領域,尤其涉及強化學習、NLP等領域。具體實現方案為:獲取用戶在人機交互過程中輸入的對話信息;基于對話信息,并利用第一意圖識別模型、第一循環神經網絡和第一命名實體識別模型,獲得對應的預測信息;基于預測信息,并利用第一行為決策模型,獲得對應的機器行為信息,以便機器在人機交互過程中基于機器行為信息做出的對應的機器行為;獲取用戶針對機器行為輸入的反饋信息;將預測信息、機器行為信息和反饋信息中的至少之一作為訓練數據存入數據庫;以及響應于數據庫中的訓練數據達到預設數據量,基于數據庫中的訓練數據,并利用強化學習算法在線進行模型優化訓練。
聲明:
“模型訓練方法、裝置、設備、存儲介質和程序產品” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)