本發明公開了基于并行優勢動作評價的強化學習自適應PID控制方法,包括設置采樣周期,A2C算法的線程個數n,初始化網絡參數;根據當前狀態誤差,利用狀態轉換器構造第i個智能體的輸入狀態向量;利用RBF網絡同時實現第i個智能體策略函數和值函數的學習,參數值修正后計算系統輸出,并觀測下一采樣時間系統誤差ei(t+1),計算獎勵函數ri(t);判斷是否更新參數,數據總量達到batch size,停止采樣,輸出狀態估計值并更新權值,將n個智能體上傳的梯度匯總并求平均,更新Global Net參數,Global Net傳遞給Actor(i)和Critic(i)新的權值;迭代重復,輸出算法的最優解。通過本發明提供的方法,可以有效的克服大超調,非線性和滯后性對PID控制器帶來的影響。
聲明:
“基于并行優勢動作評價的強化學習自適應PID控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)