本發明公開了一種狀態部分可觀測強化學習算法的高效采樣更新方法及裝置,其中,方法包括:采集智能體與環境交互生成的交互數據,并將交互數據添加至樣本池中;從樣本池中隨機選取多條樣本片段,生成訓練樣本數據;根據訓練樣本數據對更新長短時記憶網絡的網絡參數。根據本申請的更新方法,可以極大縮短算法訓練時間、提高算法表現,不但提高更新效率,而且有效保證更新的準確性,提升算法的使用體驗。
聲明:
“狀態部分可觀測強化學習算法的高效采樣更新方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)