本發明公開了一種基于深度強化學習的綠籬修剪機器人智能協同控制方法,包括以下步驟:建立綠籬修剪機器人MDP深度強化學習模型;搭建深度神經網絡框架;設計改進PPO算法的策略網絡目標函數與值函數網絡目標函數;根據最大化策略網絡目標獎勵函數與最小化值函數網絡目標函數均方誤差原則,采用改進的PPO算法訓練深度神經網絡;采用改進自適應學習率的Adam自適應梯度算法優化目標函數,經過重復更新迭代,得到綠籬修剪機器人訓練模型的最優策略,通過輸入最新狀態數據,即可預測輸出最優動作,輸出移動底盤與修剪機械臂的控制指令。本發明不需要對綠籬修剪機器人進行物理建模,避免了因模型不精確而帶來的控制誤差,避免算法陷入局部最優解,加快了算法的更新效率,同時提高了控制算法的泛化能力。
聲明:
“基于深度強化學習的綠籬修剪機器人智能協同控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)