本申請提供一種基于分層深度強化學習模型的機器人行為決策方法及設備,本申請通過模擬人腦的分層組織機理,提出了一個解決機器人稀疏獎勵問題的深度分層強化學習模型,該模型包括頂層模塊和底層模塊兩部分。在機器人環境認知的過程中,當其處于稀疏獎勵的環境中時,上層模塊根據智能體與環境的交互情況,為底層模塊設定子目標,同時,上層模塊可以感知環境并預測智能體的狀態轉移。此外,預測獎勵和獎勵增益被添加到該深度分層強化學習模型中來加速底層模塊的學習速度,在底層模塊中,設計了一個降維網絡來編碼和映射狀態信息,因此,該深度分層強化學習模型可以有效解決智能體的稀疏獎勵問題。
聲明:
“基于分層深度強化學習模型的機器人行為決策方法及設備” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)