用于檢測中間強化學習目標的方法、系統和裝置,包括在計算機存儲介質上編碼的計算機程序。方法之一包括:獲得多個演示序列,每個演示序列是在正在執行強化學習任務的相應實例的時的環境的圖像序列;對于每個演示序列,通過圖像處理神經網絡處理演示序列中的每個圖像,以確定圖像的相應的特征集合的特征值;根據演示序列確定將強化學習任務分區為多個子任務,其中,每個演示序列中的每個圖像被分配給多個子任務中的相應子任務;并且,根據演示序列中的圖像的特征值,確定多個子任務中的每一個的相應的區別特征集合。
聲明:
“中間強化學習目標的無監督的檢測” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)