本發明涉及一種基于深度強化學習的飛行器探測傳感器資源調度方法,屬于計算機應用技術領域,該方法為調度模型構建、調度策略的離線訓練和飛行器探測資源調度的在線決策三個步驟。飛行器探測資源調度模型的構建是在考慮各類調度影響因素的前提下,將飛行器探測資源調度過程抽象為馬爾可夫決策過程,明確調度問題中的要素在馬爾可夫決策模型中的具體表示;調度策略的離線訓練是在深度強化學習理論的基礎上建立Critic與Actor網絡,將飛行器探測調度環境與其馬爾可夫決策模型交互過程中獲取的數據作為網絡輸入進行網絡參數的更新與策略的訓練。本發明有效提高了探測資源調度的自主決策能力,并解決飛行器探測過程中資源分配不合理的問題。
聲明:
“基于深度強化學習的飛行器探測傳感器資源調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)