本發明提出一種基于監督式強化學習的最優控制方法,包括步驟:步驟1,初始化控制器和評價器的人工神經網絡的權值等參數,及一組訓練數據集;步驟2,選擇一組系統狀態開始迭代;步驟3,監督式控制器產生初始穩定的控制策略,控制器通過調整自身權值逼近該控制策略;步驟4,控制器生成相應的控制動作,并附加一定的隨機噪聲作為探索;步驟5,將帶有噪聲的控制動作施加到被控制的系統上,觀測下一時刻系統的狀態和回報;步驟6,調整控制器和評價器的人工神經網絡的權重;步驟7,判斷當前狀態是否滿足終止條件,是則進入步驟8,否則回到步驟3;步驟8,判斷初始的系統狀態數據是否已經全部用于訓練,是則輸出最終的控制器,否則回到步驟2。
聲明:
“基于監督式強化學習的最優控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)