EN

面向大規模預訓練語言模型的參數高效微調

“大規模預訓練語言模型+微調”是實現 ChatGPT 等現代自然語言處理任務的主流范式。不同于全參數微調所需的高昂成本,“高效參數微調”僅用少于1%模型規模的參數,即可低門檻實現相媲美效果,成為大勢所趨。

針對“高效參數微調”,該工作提出了“增量微調”(Delta Tuning)新視角,對于指導新的大模型架構和算法設計具有重大的實踐意義和理論價值,有助于提升大模型的性能、泛化性、效率,有助于實現更好的大模型“快速訓練與存儲空間節省”“多任務學習”“中心化模型服務和并行計算”。

研究團隊提出,參數高效微調方法的本質是在對“增量參數”(Delta Parameters)進行調整,因此將此類方法命名為“增量微調”(Delta Tuning),并基于統一的分析框架對增量微調現有方法進行梳理總結,將現有方法分為三類:添加式(Addition-based)、指定式(Specification-based)和重參數化(Reparameterization-based)方法。為了指導后續的模型架構和算法設計,團隊還進一步從參數優化和最優控制兩個角度,提出了增量微調的理論框架,為探索和解釋增量微調的內在機理提供了可行方案。


文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站