本發明涉及一種基于深度強化學習的電網實時自適應決策方法,包括如下步驟:步驟1、將新型電力系統機組自適應調度問題建模為馬爾科夫決策過程;步驟2、研究SAC算法的基礎原理,求解使得步驟1中MDP模型累計獎勵值最大的策略;步驟3、設計基于IL中行為克隆的神經網絡預訓練方案,模擬專家經驗,優化原始動作空間,提出IL?SAC算法,并基于IL?SAC算法以及105個真實電網場景數據訓練相應的電網優化調度智能體,在測試時該智能體應對不同的電網場景數據能夠輸出實時決策方案,實現新型電網系統的智能調控。本發明能夠實時地輸出電網調度策略。
聲明:
“基于深度強化學習的電網實時自適應決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)