本發明涉及一種多節點探測器著陸行為智能規劃及決策方法,屬于航天器控制和人工智能技術領域。本發明利用多智能體強化學習來端到端地完成探測器著陸行為規劃決策,采用“集中訓練分布執行”的訓練范式,智能體以局部觀測作為Actor網絡的輸入,以全局觀測作為Critic網絡的輸入,達到了智能體之間信息交互的目的。同時,本發明將基于模型的元學習方法融入本發明方法中,在Actor和Critic網絡中嵌入GRU模塊實現歷史經驗的存儲與利用,使智能體在面對不確定環境時具有更好的魯棒性,最終使獲得的策略能夠指導探測器各節點應對不確知的小行星環境,顯著降低了探測器著陸時發生反彈、滾轉、傾覆的概率。
聲明:
“多節點探測器著陸行為智能規劃及決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)