本發明公開了一種基于視覺?語義特征的視頻中行為識別方法,其首先利用三維卷積神經網絡提取短期時空視覺特征,避免了使用光流或密集軌跡法帶來的高計算復雜度;然后利用基于卷積神經網絡的物體檢測器提取人和物體的語義和空間位置信息,構造人?物體空間位置特征并與時空視覺特征進行特征融合,利用額外的語義信息提高視頻中交互行為的識別準確率;最后,在提取的具有通用性的短期時空視覺特征的基礎上,通過循環神經網絡提取特異性的長期行為特征提高行為識別準確率。本發明能夠解決現有針對視頻的行為識別方法中存在的計算復雜度高、行為識別準確率低、以及無法提取貫穿整個視頻時間維度的長期行為特征的技術問題。
聲明:
“一種基于視覺-語義特征的視頻中行為識別方法和系統” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)