本發明公開了一種基于隨機微分方程的連續性強化學習模型構造系統及方法,包括動作微分構造模塊、環境狀態微分構造模塊、基礎模型存在性檢驗模塊、基礎模型構造模塊、值估計器構造模塊、環境狀態估計器構造模塊和動作策略生成器構造模塊;值估計器構造模塊包含值估計器優化函數構造模塊、Q函數更新模塊和未來獎勵估計模塊;環境狀態估計器構造模塊包含環境狀態估計器優化函數構造模塊、環境狀態估計器優化器附加目標函數構造模塊、未來環境狀態預測模塊和環境狀態參數計算模塊。應用本發明所構造得到的強化學習模型,能夠實現對動作增量的計算,保證動作的連續性,并能夠適用于連續物理系統的實際控制。
聲明:
“基于隨機微分方程的連續性強化學習模型構造系統及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)