EN

大模型輕量化微調

19.jpg

預訓練語言模型在多個下游任務獲得了非常好的效果,顯示出來了巨大潛力,“預訓練+微調”的框架已經成為解決下游任務的標準處理流程。然而,大模型中的參數數量巨大,現有的微調方法需要更新所有參數,需要非常大的計算成本。因此,為了在有限資源的設備上使用大模型解決下游任務,我們提出了一種基于矩陣乘積算符(MPO)的方法,可以同時實現模型參數的壓縮和下游任務的輕量化微調。在量子多體問題的場景中,MPO可以看做是一種特殊形式的高階奇異值分解(HOSVD)方法,利用矩陣的特征值大小來表示信息的重要程度,因此可以通過去除權重矩陣中不重要的噪音來實現模型壓縮。同時,MPO所得到的張量之間具有非常強的相關性,可以只更新很少的參數就可以達到全局優化的效果,進而實現輕量化微調。我們針對Wenlan模型實現了這個方法,在下游任務的微調中,僅需要33%可訓練的參數即可實現近似的效果,如果允許一定的精度損失,模型總大小可以壓縮到原總參數量的77%。 并且這種針對矩陣的壓縮和輕量化微調的解決方案,可以對已經壓縮過的模型進行二次壓縮,具有很強的通用性。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站