本發明公開了一種基于圖像域的機械臂高效操控歸置學習獎勵訓練方法,實現雜亂場景中機械臂自主歸置物體任務。該任務中,由于空間受限、復雜碰撞等約束的存在,導致終止狀態是不可預測的,從而對獎勵函數的設計帶來了困難。本專利對強化學習的獎勵是“步驟獎勵”和“完成獎勵”的組合,通過在圖像域中合并來量化終端狀態的性能,這將引導終端狀態收斂到一個更好的域,而不是特定的值。以鼓勵快速排列盒子中分散的對象,同時最小化對象之間的間隙,對不同數量、不規則形狀的物體以及間斷情況具有更好的適應性。
聲明:
“基于圖像域的機械臂高效操控歸置學習獎勵訓練方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)