本發明涉及一種基于條件生成對抗網絡的模型化策略搜索學習方法,其技術特點是包括以下步驟:收集環境的真實狀態轉移樣本;構造條件生成對抗網絡模型,該條件生成對抗網絡模型包括生成器與判別器;利用真實狀態轉移樣本訓練條件生成對抗網絡直至收斂,最終訓練得到的生成器為環境狀態轉移預測模型;生成數量足夠多的路徑樣本;利用路徑樣本更新策略搜索強化學習算法中策略模型的參數,直到策略模型的參數更新收斂為止。本發明設計合理,當得到了環境模型的生成器后,在學習策略時不再需要額外的花費進行樣本的采樣,能夠系統有效地解決大規模環境中復雜決策問題。
聲明:
“基于條件生成對抗網絡的模型化策略搜索學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)