本發明提供了一種基于元強化學習并行訓練算法的無人機飛行決策方法,首先構建無人機飛行控制模型;然后依據馬爾科夫決策過程構建無人機飛行決策的狀態空間、動作空間和獎勵函數;接下來構建存放元強化學習算法訓練樣本數據的多任務經驗池;再定義元強化學習算法參數并在多個環境并行訓練實現無人機元強化學習決策模型;最后隨機初始化新的飛行環境和無人機狀態,測試基于元強化學習算法的無人機飛行決策模型,評價飛行決策性能。本發明通過在多個環境中對策略進行訓練以解決SAC算法泛化性能不足的問題,能夠整體優化無人機飛行決策策略,在新的環境中經過少步訓練便可以收斂,能夠有效提升策略的泛化能力和通用性。
聲明:
“基于元強化學習并行訓練算法的無人機飛行決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)