本發明提供了基于注意力機制的CPS系統強化學習控制方法,包括以下步驟:控制對象通過策略網絡選擇一個合適的策略,并且對環境進行執行;環境在策略的執行下產生變化和回應,生成一個獎勵;預設的多個傳感器對環境進行一個探測,獲得了多個傳感器探測信息;將傳感器探測信息傳入自注意力網絡,將獲取的傳感器信息的獎勵和當前的狀態同時輸入策略網絡,更新策略網絡的梯度,并且作為策略網絡的輸入去選擇下一時間段的策略,重復進行即可完成學習控制方法。本發明在使用強化學習算法解決實際的控制問題的時候,該方法對于獎勵的設計要求更加的寬松和便利,即部分信息可以通過傳感器的隱知識學到。
聲明:
“基于注意力機制的CPS系統強化學習控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)