EN

「悟道3.0」Emu模型開源,「多模態-to-多模態」全能高手

首個打通從多模態輸入到多模態輸出的「全能高手」,統一多模態預訓練模型 Emu 開源,來自智源研究院「悟道·視界」研究團隊。


超越了此前 DeepMind 的多模態大模型 Flamingo,Emu 刷新8項性能指標;并且模型能力覆蓋圖像與文本的生成及視頻理解,更通用,能完成任意圖生文以及文生圖的多模態任務。

這一突破來自于 Emu 創造性地建立了多模態統一學習框架與視頻數據的大量采用,最終得以實現對任意形式的多模態的上下文序列進行圖文任意模態的補全,即對于任意模態進行下一步自回歸預測。


文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站