本申請公開一種多智能體策略預測方法及裝置;本申請與人工智能的機器學習領域相關,可以獲取多個智能體交互環境的訓練數據,以及獲取多個智能體交互環境的隱變量概率分布;根據多個智能體交互環境的隱變量概率分布,確定訓練數據的至少一個目標隱變量;將訓練數據和目標隱變量輸入強化學習模型,以得到多個智能體交互環境的結構因子概率分布;將訓練數據及其對應的目標結構因子輸入強化學習模型,得到訓練數據對應的動作策略、以及動作策略的獎勵信息;基于訓練數據、目標結構因子、動作策略、以及動作策略的獎勵信息,對強化學習模型進行訓練,以通過訓練后的強化學習模型對多個智能體進行動作策略預測。
聲明:
“多智能體策略預測方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)