本發明公開了一種乒乓球機器人靈活擊球策略的實現方法,方法包括:在仿真環境下通過自監督學習方法訓練出乒乓球軌跡的特征提取器;自監督學習方法的任務包括異常軌跡的修正與軌跡預測;將特征提取器遷移至現實環境中進行遷移式學習以對特征提取器進行再訓練;遷移式學習的數據標簽是通過采集的乒乓球軌跡與物理學分析得出的真實乒乓球軌跡;將特征提取器應用于強化學習中,得到擊球策略;強化學習中,針對組成一個完整乒乓球軌跡的四個軌跡階段分別設置獎賞;擊球策略直接輸出乒乓球機器人的關節位置。本發明結合了自監督學習、強化學習以及遷移學習,可大幅降低機器人與現實環境交互次數,提升機器人擊球策略靈活性。
聲明:
“乒乓球機器人靈活擊球策略的實現方法、系統及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)