本公開實施例公開了一種語音播報模型的強化學習方法、電子設備及程序產品,所述方法包括:獲取樣本數據;樣本數據包括樣本導航軌跡中樣本位置處的導航相關信息以及樣本位置處輸出的語音播報樣本內容;將樣本導航軌跡中當前樣本位置的導航相關信息作為當前狀態輸入至語音播報模型,得到當前狀態下的動作信息;動作信息包括在當前樣本位置處的語音播報預測內容;基于語音播報預測內容,以及在當前樣本位置處輸出的語音播報樣本內容之間的匹配結果,計算目標獎勵值;匹配結果包括語音播報預測內容中的預測導航元素與語音播報樣本內容中的樣本導航元素之間的匹配結果;基于目標獎勵值對語音播報模型進行強化訓練。
聲明:
“語音播報模型的強化學習方法、電子設備及程序產品” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)