Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision

被引：1

作者：

Wang, Tzu-Jui Julius ^{[1
]}

Laaksonen, Jorma ^{[1
]}

Langer, Tomas ^{[2
]}

Arponen, Heikki ^{[2
,3
]}

Bishop, Tom E. ^{[2
,4
]}

机构：

[1] Aalto Univ, Espoo, Finland

[2] Intuit Machines Inc, San Francisco, CA USA

[3] Systemat Alpha, Sunny Isles Beach, FL USA

[4] Glass Imaging, Los Altos, CA USA

来源：

2023 IEEE/CVF WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV) | 2023年

基金：

芬兰科学院;

关键词：

SEGMENTATION;

D O I：

10.1109/WACV56688.2023.00113

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics. We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities. Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on image-to-text and text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.

引用

页码：1073 / 1083

页数：11

共 50 条

[31] Subsampling of Frequent Words in Text for Pre-training a Vision-Language Model
Liang, Mingliang
Larson, Martha
PROCEEDINGS OF THE 1ST WORKSHOP ON LARGE GENERATIVE MODELS MEET MULTIMODAL APPLICATIONS, LGM3A 2023, 2023, : 61 - 67
[32] EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
Mu, Yao
Zhang, Qinglong
Hu, Mengkang
Wang, Wenhai
Ding, Mingyu
Jin, Jun
Wang, Bin
Dai, Jifeng
Qiao, Yu
Luo, Ping
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), 2023,
[33] Fine-Grained Semantically Aligned Vision-Language Pre-Training
Li, Juncheng
He, Xin
Wei, Longhui
Qian, Long
Zhu, Linchao
Xie, Lingxi
Zhuang, Yueting
Tian, Qi
Tang, Siliang
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 35 (NEURIPS 2022), 2022,
[34] Anatomical Structure-Guided Medical Vision-Language Pre-training
Li, Qingqiu
Yan, Xiaohan
Xu, Jilan
Yuan, Runtian
Zhang, Yuejie
Feng, Rui
Shen, Quanli
Zhang, Xiaobo
Wang, Shujun
MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION - MICCAI 2024, PT XI, 2024, 15011 : 80 - 90
[35] Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding
Zhang, Taolin
He, Sunan
Dai, Tao
Wang, Zhi
Chen, Bin
Xia, Shu-Tao
THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 7, 2024, : 7296 - 7304
[36] Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning
Huang, Zhicheng
Zeng, Zhaoyang
Huang, Yupan
Liu, Bei
Fu, Dongmei
Fu, Jianlong
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 12971 - 12980
[37] CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training
Ma, Zhiyuan
Li, Jianjun
Li, Guohui
Huang, Kaiyan
PROCEEDINGS OF THE 30TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2022, 2022, : 4515 - 4524
[38] Distilling vision-language pre-training models with modality-specific meta-learning
Ma, Xinge
Wang, Jin
Zhang, Xuejie
KNOWLEDGE-BASED SYSTEMS, 2025, 315
[39] Source-Free Domain Adaptation Guided by Vision and Vision-Language Pre-training
Zhang, Wenyu
Shen, Li
Foo, Chuan-Sheng
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2025, 133 (02) : 844 - 866
[40] MAKE: Vision-Language Pre-training based Product Retrieval in Taobao Search
Zheng, Xiaoyang
Wang, Zilong
Li, Sen
Xu, Ke
Zhuang, Tao
Liu, Qingwen
Zeng, Xiaoyi
COMPANION OF THE WORLD WIDE WEB CONFERENCE, WWW 2023, 2023, : 356 - 360

← 1 2 3 4 5 →