本發明實施例提供一種強化學習方法、裝置、電子設備及存儲介質,所述方法包括:確定智能體在執行完當前執行動作后的觀測狀態,作為下一觀測狀態;基于預先設定的觀測狀態與規則狀態的映射關系,確定下一觀測狀態對應的下一規則狀態;基于預先設定的智能體執行策略和下一規則狀態,確定智能體的下一執行動作,并基于下一規則狀態和下一執行動作確定下一行動效用值;基于下一行動效用值,更新智能體的當前行動效用值,直至滿足預先設定的交互終止條件。本發明實施例提供的強化學習方法、裝置、電子設備及存儲介質,行動效用值的計算量大幅減少,縮減了計算維度,提升了強化學習效率。
聲明:
“強化學習方法、裝置、電子設備及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)