Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training

被引：0

作者：

Li, Gen ^{[1
]}

Duan, Nan ^{[2
]}

Fang, Yuejian ^{[1
]}

Gong, Ming ^{[3
]}

Jiang, Daxin ^{[3
]}

机构：

[1] Peking Univ, Sch Software & Microelect, Beijing, Peoples R China

[2] Microsoft Res Asia, Nat Language Comp, Beijing, Peoples R China

[3] Microsoft, STCA NLP Grp, Beijing, Peoples R China

来源：

THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, THE THIRTY-SECOND INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE AND THE TENTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE | 2020年 / 34卷

基金：

中国国家自然科学基金;

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

We propose Unicoder-VL, a universal encoder that aims to learn joint representations of vision and language in a pre-training manner. Borrow ideas from cross-lingual pretrained models, such as XLM (Lample and Conneau 2019) and Unicoder (Huang et al. 2019), both visual and linguistic contents are fed into a multi-layer Transformer (Vaswani et al. 2017) for the cross-modal pre-training, where three pre-trained tasks are employed, including Masked Language Modeling(MLM), Masked Object Classification(MOC) and Visual-linguistic Matching(VLM). The first two tasks learn context-aware representations for input tokens based on linguistic and visual contents jointly. The last task tries to predict whether an image and a text describe each other. After pretraining on large-scale image-caption pairs, we transfer Unicoder-VL to caption-based image-text retrieval and visual commonsense reasoning, with just one additional output layer. We achieve state-of-the-art or comparable results on both two tasks and show the powerful ability of the cross-modal pre-training.

引用

页码：11336 / 11344

页数：9

共 50 条

[1] Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks
Huang, Haoyang
Liang, Yaobo
Duan, Nan
Gong, Ming
Shou, Linjun
Jiang, Daxin
Zhou, Ming
[J]. 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING (EMNLP-IJCNLP 2019): PROCEEDINGS OF THE CONFERENCE, 2019, : 2485 - 2494
[2] UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training
Zhou, Mingyang
Zhou, Luowei
Wang, Shuohang
Cheng, Yu
Li, Linjie
Yu, Zhou
Liu, Jingjing
[J]. 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 4153 - 4163
[3] Cross-modal Semantic Alignment Pre-training for Vision-and-Language Navigation
Wu, Siying
Fu, Xueyang
Wu, Feng
Zha, Zheng-Jun
[J]. PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2022, 2022, : 4233 - 4241
[4] Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation
Jiang, Chaoya
Ye, Wei
Xu, Haiyang
Huang, Songfang
Huang, Fei
Zhang, Shikun
[J]. PROCEEDINGS OF THE 61ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL 2023): LONG PAPERS, VOL 1, 2023, : 14660 - 14679
[5] VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
Wang, Teng
Jiang, Wenhao
Lu, Zhichao
Zheng, Feng
Cheng, Ran
Yin, Chengguo
Luo, Ping
[J]. INTERNATIONAL CONFERENCE ON MACHINE LEARNING, VOL 162, 2022,
[6] VLCDoC: Vision-Language contrastive pre-training model for cross-Modal document classification
Bakkali, Souhail
Ming, Zuheng
Coustaty, Mickael
Rusinol, Marcal
Ramos Terrades, Oriol
[J]. PATTERN RECOGNITION, 2023, 139
[7] CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training
Ma, Zhiyuan
Li, Jianjun
Li, Guohui
Huang, Kaiyan
[J]. PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2022, 2022, : 4515 - 4524
[8] COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation
Wen, Keyu
Xia, Jin
Huang, Yuanyuan
Li, Linyang
Xu, Jiayan
Shao, Jie
[J]. 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2021), 2021, : 2188 - 2197
[9] CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations
Li, Hang
Ding, Wenbiao
Kang, Yu
Liu, Tianqiao
Wu, Zhongqin
Liu, Zitao
[J]. 2021 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP 2021), 2021, : 3966 - 3977
[10] PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting
Guo, Zixin
Wang, Tzu-Jui Julius
Pehlivan, Selen
Radman, Abduljalil
Laaksonen, Jorma
[J]. PROCEEDINGS OF THE 46TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, SIGIR 2023, 2023, : 2261 - 2265

← 1 2 3 4 5 →