一種對抗場景下的對手模型構建方法及存儲介質,該方法包括將整體環境模型區分為對手智能體狀態表示模型和對手智能體狀態轉移模型:其中對手智能體狀態表示模型利用編碼器構造,將高維空間中的訓練數據映射到低維空間,保持原始數據網絡結構的低維節點的抽象壓縮表示,使得較大相似度的節點具有類似的向量表示;對手智能體狀態預測模型采用解碼器結合深度強化學習網絡構造,在低維潛在空間生成未來狀態的預測表示;利用對手智能體狀態類數據和動作類數據對模型進行學習訓練,當達到訓練目標或者收斂后,利用變分自編碼器的生成模塊,在隱空間對下一時刻狀態預測并輸出。
聲明:
“對抗場景下的對手模型構建方法及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)