EN

大規模預訓練模型的參數高效微調框架與工具

16.jpg

預訓練模型已經為了多個領域的基礎設施,隨著預訓練模型參數量的增長,其適配的存儲和計算成本也十分昂貴。因此,如何高效地驅動大規模預訓練模型成為了值得研究的課題。本研究由北京智源人工智能研究院和清華大學共同開展,在已有的參數高效方法的基礎上發展了統一范式的框架和方法:Delta Tuning,即僅需要調整極少量的參數和保持絕大部分參數不變的情況下,就可以取得和全參數微調相當的效果。此框架將參數高效的微調方法進行了統一的數學建模,并且從優化和最優控制兩個角度進行理論推導和解釋。同時,本研究在逾100個NLP任務上進行了全面的實驗分析,分別從表現、收斂性、遷移性、計算效率、縮放性、組合性等多個方面進行了系統性的實驗研究,取得了參數高效微調的前沿實驗結論。為了促進模型高效微調的相關研究,北京智源人工智能研究院和清華大學研發了模型高效微調的開源工具OpenPrompt和OpenDelta,前者側重于使用提示學習的范式組織訓練流程,后者負責模型的具體參數高效優化,二者協同形成了完整的模型高效微調的工具體系,并同時兼顧了效率和效果,可以在各類預訓練模型和下游任務上便捷地完成適配。OpenPrompt和OpenDelta高效微調工具體系已經在GitHub收獲1800星標,并獲得了ACL最佳系統論文獎,得到了業內的廣泛認可。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站