本發明公開了一種基于深度強化學習的越野車三維路徑規劃方法,構建一個基于價值的越野車三維路徑規劃的深度卷積神經網絡模型,以最優動作價值函數為學習目標,構建隨越野車移動的動態全局地圖作為觀測輸入,設計綜合考慮路程和能耗的獎勵函數,根據目標距離設計深度強化學習的探索策略,最后結合探索策略和獎勵函數對深度卷積神經網絡模型進行端到端的訓練,以使越野車從起點到終點的行駛過程中獲得的獎勵最大,實現越野車的三維路徑規劃。采用上述方法規劃出的越野車三維路徑,綜合考慮了路程和能耗,在探索過程中可以兼顧方向性和隨機性,為三維地圖中的越野車規劃出路程和能耗折中的節能路徑。
聲明:
“基于深度強化學習的越野車三維路徑規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)