一種基于強化學習和好奇心的迷宮機器人路徑規劃方法,屬于移動機器人技術領域。該模型以強化學習為基礎,包括Q?learning算法,好奇心算法,以及回溯強化。其中,好奇心算法包括一個BP網絡,聯想記憶網絡和內部獎勵三部分。算法首先感知所在節點以及狀態;隨后根據好奇心算法進行好奇心獎勵計算,而后根據Q?learning算法更新公式計算Q值;選擇動作;發生狀態轉移;到達目的地后進行回溯強化;重復以上過程直至學習到最短路徑。本發明引入基于預測誤差的好奇機制,使得算法對未知環境有更好的探索能力,同時也降低了重復探索的次數,減少了學習過程中的尋路時間。使得機器人在迷宮中能更好更快地尋得最優解。
聲明:
“基于強化學習和好奇心的迷宮機器人路徑規劃方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)