提供了用于優化用于以軌跡為中心的強化學習的系統的局部控制策略的控制器??刂破靼▓绦幸韵虏襟E:使用在使用初始隨機控制策略執行的試錯實驗期間收集的數據的集合,來學習系統的隨機預測模型;估計相關聯的平均預測和不確定性;在當前時間步驟使用控制輸入時,使用經過學習的隨機系統模型確定系統與標稱系統狀態的偏差的局部集合;確定具有最壞情況偏差的系統狀態;確定穩健性約束的梯度;使用非線性規劃來提供并求解穩健策略優化問題,以獲得系統軌跡并且同時穩定局部策略;根據求解的優化問題更新控制數據;以及經由接口輸出更新后的控制數據。
聲明:
“用于以軌跡為中心的基于模型的強化學習的穩健優化的系統及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)