EN

面向動態視音場景的問答學習機制

23.png

我們在日常生活中被視覺和聲音信息所包圍,這兩種信息的結合利用提高了我們對場景的感知和理解能力。想象一下,當我們身處在一場音樂會中時,同時觀看樂器演奏動作和聆聽音樂的旋律可以很好地幫我們享受演出。受此啟發,如何讓機器整合多模態信息,尤其是視覺和聲音等自然模態,以達到與人類相當的場景感知和理解能力,是一個有趣且有價值的課題。因此,中國人民大學GeWu實驗室與羅徹斯特大學(美)研究團隊專注于視聽問答(Audio-Visual Question Answering, AVQA)任務,旨在回答有關不同視覺對象、聲音及其在視頻中的關聯的問題。顯然,必須對視聽場景進行全面的多模態理解和時空推理才能做出正確的回答。為了探索視聽場景理解和時空推理的問題,研究團隊構建了一個專注于問答任務的大規模的視聽數據集(Spatial-Temporal Music AVQA,MUSIC-AVQA),其中包含超過45K個問答對,并涵蓋了不同模態下的9類問題類型以及33個不同的問題模板。為了解決上述 AVQA 任務,團隊分別從空間和時序感知的角度出發,提出了一種動態視音場景下的空間-時序問答模型。具體來說就是首先提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態的關聯,然后提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態的關聯,最后再融合上述空間感知和時間感知的視聽特征,得到問答的聯合表示,以預測視頻關聯問題的答案。所提出的框架能使AI能夠像人一樣理解動態視音場景并能做出一些推理。作者團隊相信提出的MUSIC-AVQA數據集可以成為評估視聽場景細粒度理解和時空推理的基準平臺,同時也認為這項工作是探索視聽推理的開篇之作,為該領域開創了一個良好的開端,并借此希望能夠激勵更多的人同我們一道去探索這一領域。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站