本發明涉及一種機器人運動技能學習方法及系統,涉及機器人學習領域,該方法包括:獲取機器人的當前環境狀態參數及所述機器人的當前動作;根據當前環境狀態參數及當前動作,采用無模型強化學習方法確定全局價值函數和無模型強化學習策略;根據當前環境狀態參數和所述無模型強化學習策略,采用環境動態模型預測所述機器人下一時刻的軌跡,記為初始軌跡;所述環境動態模型為采用K個相同結構的概率神經網絡擬合確定的;基于所述全局價值函數,采用模型預測軌跡積分方法優化所述初始軌跡,獲得優化后的軌跡;根據優化后的軌跡確定控制所述機器人的運動指令。本發明提高了機器人運動的學習效率。
聲明:
“機器人運動技能學習方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)