包括在計算機存儲介質上編碼的、用于使用強化學習來選擇動作名單的計算機程序的方法、系統和裝置。其中一種方法包括接收表征環境當前狀態的觀測;通過使用深度神經網絡處理所述觀測和多個候選動作名單來選擇動作名單,其中每個候選動作名單包括來自動作集合的相應多個動作,并且其中深度神經網絡被配置為對于每個動作名單處理觀測和該候選動作名單中的動作以生成該候選動作名單的名單Q值,該值是響應于觀測從提供給動作選擇器的所述候選動作名單產生的長期獎勵的估計;以及響應于觀測將選擇的動作名單提供給動作選擇器。
聲明:
“使用強化學習選擇動作名單” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)