本發明公開一種基于云原生的強化學習流水線方法、系統、設備及存儲介質;包括:基于系統框架和數據序列化協議,構建云原生存儲系統;對原始數據集進行預處理,并將預處理的數據集存儲至云原生存儲系統;啟動強化學習智能體和強化學習環境進行交互,產生軌跡數據,存儲到軌跡緩存池,并構建強化學習自有數據集;調用軌跡緩存池的軌跡數據,更新強化學習智能體模型;保存更新完成的強化學習智能體模型到云原生存儲系統中,構建模型推理服務;基于訓練過程中的訓練日志,構建日志可視化微服務,實時反饋智能體訓練結果,并將結果保存到云原生存儲系統。本發明能夠提高決策分析場景中分布式訓練、循環運行和云原生部署的可靠性、簡便性和實用性。
聲明:
“基于云原生的強化學習流水線方法、系統、設備及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)