本發明涉及圖像理解領域,其公開了一種基于推敲注意力機制的圖像描述生成系統及方法,解決現有圖像描述方案存在的缺少潤色過程、訓練和測試過程不一致、生成描述辨識度不高的問題。該方法包括:a.數據集的處理:提取圖像的全局特征和局部特征,構建數據集,對數據集中的單詞進行標記,生成對應的詞嵌入向量;b.訓練圖像描述生成模型:采用第一層基于殘差注意力機制的解碼器生成粗略的圖像描述,采用第二層基于殘差注意力機制的解碼器對已生成的圖像描述進行潤色;c.結合強化學習進一步訓練模型:在訓練過程中模擬模型的測試過程,并且以生成描述的CIDEr分數來引導模型的訓練,結合強化學習對模型進行調整。
聲明:
“基于推敲注意力機制的圖像描述生成系統及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)