鹏程·盘古：大规模自回归中文预训练语言模型及应用

被引：5

作者：

曾炜 ^{[1
,2
]}

苏腾 ^{[3
]}

王晖 ^{[1
]}

田永鸿 ^{[1
,2
]}

高文 ^{[1
]}

机构：

[1] 鹏城实验室

[2] 北京大学

[3] 华为技术有限公司

来源：

中兴通讯技术 | 2022年 / 02期

关键词：

大规模预训练语言模型; 鹏城云脑Ⅱ; 大规模分布式训练; 中文理解与生成; 提示微调学习;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

在鹏城云脑Ⅱ上训练了全球首个拥有全开源2 000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据，采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略，从而可将训练任务高效扩展到4 096个处理器上。对比实验表明，在少样本或零样本情况下，鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能。在此基础上，鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。

引用

页码：33 / 43

页数：11

共 4 条

[1] CPM: A large-scale generative Chinese Pre-trained language model[J] . Zhang Zhengyan,Han Xu,Zhou Hao,Ke Pei,Gu Yuxian,Ye Deming,Qin Yujia,Su Yusheng,Ji Haozhe,Guan Jian,Qi Fanchao,Wang Xiaozhi,Zheng Yanan,Zeng Guoyang,Cao Huanqi,Chen Shengqi,Li Daixuan,Sun Zhenbo,Liu Zhiyuan,Huang Minlie,Han Wentao,Tang Jie,Li Juanzi,Zhu Xiaoyan,Sun Maosong. AI Open . 2021
[2] RoBERTa: A Robustly Optimized BERT Pretraining Approach.[J] . Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettlemoyer,Veselin Stoyanov. CoRR . 2019
[3] DAPPLE:a pipelined data parallel approach for training large models .2 FAN S Q,RONG Y,MENG C,et al. https://cs.paperswithcode.com/paper/dapple-a-pipelined-data-parallel-approach-for . 2022
[4] Exploring the limits of transfer learning with a unified text-to-text transformer .2 RAFFEL C,SHAZEER N,ROBERTS A,et al. https://arxiv.org/abs/1910.10683 . 2022

← 1 →