本發明提出一種基于強化學習的監護預警方法及系統,包括:根據實時輸入的時序監護數據,預測所述時序監護數據與不良事件標簽的關聯關系,創建決策環境;對所述智能體決策動作進行建模;所述智能體根據當前時刻輸入的時序監護數據選擇決策動作;所述決策環境根據所述決策動作輸出響應信息,其中,所述響應信息包括環境狀態和決策動作的獎懲值;將所述環境狀態輸入預先構建深度強化學習框架,獲取智能體所有可選決策動作中期望值最高的動作作為所述智能體下一次動作決策的輸出;根據前述步驟進行智能體與決策環境交互直到滿足結束條件,輸出預測結果;本發明通過強化學習,實時監護目標對象情況,提高問題處理的及時性。
聲明:
“基于強化學習的監護預警方法及系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)