本發明公開了一種協作多智能體強化學習方法,步驟如下:獲取每個智能體的觀測信息和系統的全局狀態;將獲取的每個智能體的觀測信息傳入深度神經網絡計算得到智能體所有動作的狀態動作值;利用貪心規則進行動作選擇;將采取的動作對應的狀態動作值和全局觀測信息傳入獎勵高速路網絡中;獎勵高速路網絡進行信息融合并輸入聯合的狀態動作值;利用環境給出的獎勵信號進行梯度的反向傳播并更新神經網絡的參數從而得到每個智能體的策略模型。本發明能夠降低多智能體系統訓練過程中所需的數據量,并適合推廣到大規模的多智能體系統中。
聲明:
“協作多智能體強化學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)