本發明涉及一種基于多智能體強化學習的目標探測與分配方法及裝置,包括構建作戰行為模型和強化學習訓練環境;采用強化學習訓練環境對所述作戰行為模型進行訓練至模型收斂,獲取人工智能行為模型;采用作戰仿真引擎對所述人工智能行為模型進行訓練,輸出優化模型。本發明將強化學習算法MADDPG集成到兵棋推演系統中,構建從簡單到復雜的仿真環境,優化強化學習收斂速度,有效的解決了兵棋推演系統中智能體優化收斂速度的問題。
聲明:
“基于多智能體強化學習的目標探測與分配方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)