本發明公開了一種博弈對話中基于對話歷史和強化學習的多輪對話方法,屬于智能體和強化學習模型領域。該方法包括如下步驟:首先將多輪對話作為一個有限重復博弈的過程,存儲已經結束的完整多輪對話,構建既往對話歷史信息庫;然后在一個新的多輪對話中,基于記憶網絡構建對手行動估計模型,用當前對話已經進行的輪次去檢索對話歷史信息庫,通過多步估計產生對手下一步策略的估計向量;最后基于編碼?解碼模型融合當前對話的信息和估計向量,做出下一步的應答。本發明在多輪對話過程中,將既往對話歷史的估計向量和當前對話歷史的回應向量進行融合,能夠更充分地利用了歷史信息,使得對話機器人(智能體)具備更高的適應性、做出更好的應答。
聲明:
“博弈對話中基于對話歷史和強化學習的多輪對話方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)