EN

Painter通用視覺模型:首創「上下文視覺學習」技術路徑

圖像理解圖像、圖像解釋圖像,圖像輸出圖像。將NLP中的上下文學習概念引入視覺模型,是智源對通用智能的新探索。


通用視覺模型 Painter , 將“以視覺為中心”作為建模核心思想,將圖像作為輸入和輸出,從而獲得上下文視覺信息,完成不同的視覺任務。


通用視覺模型Painter的設計思路是將大多數視覺任務看成”圖像修復問題“,即給定輸入(“缺失”)圖像,預測輸出是“修復“過的圖像。這保持了像素之間的空間關系,確保每個輸出圖像的像素仍然代表相關任務的輸出。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站