基于Transformer的自然语言处理预训练语言模型概述

被引：6

作者：

史童月 ^{[1
]}

王中卿 ^{[1
]}

机构：

[1] 苏州大学计算机科学与技术学院

来源：

信息与电脑(理论版) | 2022年 / 10期

关键词：

Transformer; 自然语言处理; 预训练模型;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理]; TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 081203 ; 0835 ; 1405 ;

摘要：

在自然语言处理领域,谷歌提出Transformer模型之后,以生成式预训练模型(Generative Pre-Training,GPT)和深度双向预训练语言模型(Bidirectional Encoder Representat ions from Transformers,BERT)等为代表的一些基于Transformer的预训练语言模型(Transformer-based Pre-trained Language Models,TPLM)相继被提出,在大部分自然语言处理任务上取得很好的效果。TPLM使用自监督学习方法学习来自大量文本数据的通用语言表示,并将这些知识转移到下游任务中,为其提供了背景知识,避免了重新开始训练新任务模型的情况。笔者主要研究了基于Transformer的预训练语言模型与基于TPLM的“预训练+微调”的自然语言处理预训练新技术模式。首先,介绍预训练模型的发展背景;其次,解释各种有关TPLM的核心概念,如预训练、预训练方法、预训练任务、自监督学习与迁移学习等;再次,简要介绍相关TPLM模型与目前的进展;最后,提出改进TPLM的方法并总结。

引用

页码：52 / 56

页数：5

共 15 条

[1] 鹏程·盘古：大规模自回归中文预训练语言模型及应用
曾炜
苏腾
王晖
田永鸿
高文
[J]. 中兴通讯技术, 2022, (02) : 33 - 43
[2] 自然语言处理新范式：基于预训练模型的方法
车万翔
刘挺
[J]. 中兴通讯技术, 2022, (02) : 3 - 9
[3] 生成式预训练模型
张民
李俊涛
[J]. 中国科学基金, 2021, 35 (03) : 403 - 406
[4] Pre-trained models for natural language processing: A survey[J]. QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Science China(Technological Sciences). 2020(10)
[5] 自然语言处理[M]. - 电子工业出版社 , 车万翔, 2021
[6] Pre-Trained Models: Past, Present and Future[J] . Han Xu,Zhang Zhengyan,Ding Ning,Gu Yuxian,Liu Xiao,Huo Yuqi,Qiu Jiezhong,Zhang Liang,Han Wentao,Huang Minlie,Jin Qin,Lan Yanyan,Liu Yang,Liu Zhiyuan,Lu Zhiwu,Qiu Xipeng,Song Ruihua,Tang Jie,Zhu Jun.AI Open . 2021 (prep)
[7] Lawformer: A pre-trained language model for Chinese legal long documents[J] . Xiao Chaojun,Hu Xueyu,Liu Zhiyuan,Tu Cunchao,Sun Maosong.AI Open . 2021
[8] BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J] . Lee Jinhyuk,Yoon Wonjin,Kim Sungdong,Kim Donghyeon,Kim Sunkyu,So Chan Ho,Kang Jaewoo.Bioinformatics (Oxford, England) . 2020 (4)
[9] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context[J] . Zihang Dai,Zhilin Yang,Yiming Yang,Jaime G. Carbonell,Quoc V. Le,Ruslan Salakhutdinov.CoRR . 2019
[10] RoBERTa: A Robustly Optimized BERT Pretraining Approach[J] . Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Mandar Joshi,Danqi Chen,Omer Levy,Mike Lewis,Luke Zettlemoyer,Veselin Stoyanov.CoRR . 2019

← 1 2 →