EN

基于transformer的端到端的視頻關系檢測模型

21.png

我們通常用<主體,動作,客體>這種三元組的形式來表示日常生活中物體對之間的關系,比如<人,騎,馬>這樣的動作,由此產生了“視頻關系檢測”這樣一個視覺任務,它要求模型檢測出一個視頻里每一對關系所屬物體和動作類別,以及它在時間和空間上的位置(用檢測框軌跡來表示)。傳統的視頻關系檢測工作遵循著一種多階段的系統框架,不僅難以捕捉視頻里長距離的時空場景信息,而且在效率上也不盡如人意。本研究認為在視頻關系檢測中,上下文的信息很重要,并且不同的模塊其實應該是彼此相關的,而一個統一模型不僅能夠在端到端的檢測過程中利用到這些上下文的信息,同時還能夠基于多任務學習的訓練目標同時優化不同的模塊使其互相促進。因此,我們提出了一種基于transformer的VRDFormer框架。VRDFormer由視頻編碼模塊和基于查詢的關系實例生成模塊組成。視頻編碼模塊將視頻編碼為幀級別的特征?;趒uery的關系實例生成模塊則逐幀處理編碼后的特征,并以自回歸方式生成關系實例。它由三個子模塊組成:1)幀級目標對檢測;2)軌跡對更新;以及3)關系分類。首先,我們的模型使用static query來檢測每一幀中的所有對象對。然后,我們選擇一些具有高置信度的候選對,稱為recurret query,將它們輸入到下一幀中,從而在時空上下文中高效地跟蹤對象對。在自回歸過程中,我們將每個幀的預測保留到一個存儲模塊中,然后使用關系預測模塊來預測對象對的關系類別。該模型與目標對檢測和關系分類聯合訓練。在兩個基準數據集ImageNet VidVRD和VidOR上的大量實驗證明了所提出的VRDFormer的有效性,它在關系檢測和關系標記任務上都達到了最先進的性能。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站