EN

基于動態梯度調節的平衡化多模態學習

22.jpg

當人類感知世界的時候,我們會利用‘視,聽,嗅,觸,味’五感,它們相輔相成,生動具象地將美妙的世界展示給我們。受此啟發,機器多模態學習通過整合不同的感官,有助于全面了解世界。因此,更多的可利用模態有望提高模型性能,但我們實際上發現即使多模態模型優于其單模態模型,它們也并沒有得到充分利用。我們指出現有的視聽判別模型可能仍然存在欠優化的單模態表示。進一步實驗和分析發現,這是由某些場景中的另一種主導模態引起的,例如吹風事件中的風聲,繪圖事件中的圖片等。有趣的是,我們可以發現機器像人一樣,更偏向于學習更容易掌握的內容而逃避更加困難的。那么這時候就需要我們去規范機器的學習流程,做到齊頭并進,全面發展。為了緩解這種優化不平衡,我們提出了動態梯度調制方法,通過監控它們對學習目標的貢獻程度來自適應地控制每種模態的優化過程。該方法在不同的多模態學習任務上實現了對常用融合方法的較大的提升,此外,這種簡單的策略也可以提升現有的多模態方法性能,這說明了它的有效性和通用性。通過該研究工作,我們希望能緩解這種多模態學習中的不平衡現象,從而讓機器能更加靈活有效的利用好更多的模態信息,讓AI更加便捷和智能地服務人類。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站