EN

CPM: 以中文為核心的大規模預訓練語言模型

13.png

CPM系列模型旨在訓練更好的中文大規模預訓練語言模型,由北京智源人工智能研究院和清華大學共同研發,目前共有3個模型:CPM-1、CPM-2和CPM-3。CPM-1是第一個中文大規模預訓練語言模型,使用100GB數據訓練,共26億參數。預訓練任務采取經典的自回歸語言模型,可以遷移到各種中文下游自然語言處理任務中。實驗結果表明CPM-1在對話、文本生成等下游任務上取得了優異的少次學習或零次學習的性能。隨著預訓練模型參數規模急速增長,相應的計算開銷極大程度限制了大規模預訓練模型的使用。針對該問題,本團隊設計了一套高效預訓練框架,通過詞表優化、知識繼承、混合專家化等技術,顯著降低了大規模預訓練模型訓練的開銷?;诖丝蚣苓M一步訓練了CPM-2,該模型采用encoder-decoder框架,兼顧理解與生成,在文本理解和文本生成的任務上都優于谷歌發布的同等參數規模的大規模預訓練模型mT5。CPM-3基于BMTrain高效訓練框架實現,能取得顯著優于Deepspeed的分布式加速效果,覆蓋續寫、填空、縮寫、擴寫、改寫等所有類型的文本生成任務,并且具有原生的可控文本生成能力,能夠根據給定的關鍵詞、知識圖譜、事件、長度、風格等控制信號生成連貫、流暢的文本。CPM-3在預訓練階段采用多樣化的任務設計和提示模板預訓練技術,在零樣本和少樣本場景中有十分優秀的文本生成效果。

文本正文
復制文本
媒體聯絡
media@baai.ac.cn
大鸡巴操逼网站