本申請涉及一種基于強化學習的無超調PID控制器參數整定方法。本申請通過構造學習智能體,觀測當前狀態數據輸入到動作神經網絡得到動作參數,之后再觀測下一狀態的數據以及獎勵。當前狀態,動作,轉移后狀態,獎勵值,四個元素組成了狀態轉移元組,每一次被控對象執行動作時都會進行一次狀態轉移,并將狀態轉移元組存入經驗池內。智能體抽取一定量的狀態轉移元組,用于訓練動作網絡和評價網絡。重復訓練動作網絡和評價網絡直到參數收斂,保存參數權重。最終智能體根據當前狀態數據輸出最優PID參數提供給PID控制器,使得被控對象的狀態值在無超調的基礎上以較快的速度達到設定值,進而實現對控制器PID參數無超調整定的方面改進。
聲明:
“基于強化學習的無超調PID控制器參數整定方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)