本發明公開了一種基于強化學習的電力系統缺陷物資智能調度方法,包括,定義強化學習中的狀態、決策、轉移方程、獎勵函數及物資倉儲動態調度問題中的需求和目標;利用馬爾科夫決策過程解決所述物資倉儲動態調度問題;羅列針對電網缺陷物資的Bellman方程并選擇求解策略;將所述Bellman方程修改為數據驅動在線更新的形式,基于ε貪婪策略確定調度行動。本發明提出了基于馬爾科夫隨機過程和強化學習求解電力系統應急物資的聯合控制和調度問題,且“端到端”算法不預測需求,直接做出庫存控制和調度決策;同時在真實數據集上得到了驗證,有很好的收斂性和增益,證明了方法的可用性與實踐價值。
聲明:
“基于強化學習的電力系統缺陷物資智能調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)