本發明公開一種動態環境下基于深度強化學習的移動機器人避碰規劃方法,屬于移動機器人導航技術領域。本發明通過激光測距儀采集原始數據,將原始數據處理后作為神經網絡的輸入,建立LSTM神經網絡,通過A3C算法,神經網絡輸出相應參數,經過處理獲得機器人每一步的動作。本發明無需對環境進行建模,更加適用于未知障礙物環境,采用actor?critic框架與時間差分算法,實現低方差的同時更適用于連續動作空間,實現邊訓練邊學習的效果。設計具有艏向轉角限制的連續動作空間,且采用4個線程并行學習訓練,與一般深度強化學習方法相比,大大提高學習訓練時間,減少樣本相關性,保障探索空間的高利用性與探索策略的多樣性,從而提升算法收斂性、穩定性以及避障成功率。
聲明:
“動態環境下基于深度強化學習的移動機器人避碰規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)