本發明公開了一種基于多智能體強化學習的無人機網絡協同快跳頻方法,具體為:輸入無人機網絡環境,每對無人機初始化自身Q表以及最優先驗動作分布估計、互信息懲罰項系數和動作狀態對出現次數;在當前時隙中,每對無人機根據上一時隙生成的動作選擇傳輸信道,傳輸完成后得到環境反饋的獎勵;每對無人機觀測環境的當前狀態,再與其它無人機對交互當前狀態下各個動作的Q值得到全局Q值,根據互信息正則化soft Q?learning算法中的行為策略生成動作;每對無人機更新自身Q表以及各個參量;當達到訓練回合的最大步數時,重新輸入無人機網絡環境開始下一回合。本發明實現了所有無人機對的總吞吐量性能的提升,為無人機網絡提供了通信保障。
聲明:
“基于多智能體強化學習的無人機網絡協同快跳頻方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)