Global-to-Contextual Shared Semantic Learning for Fine-Grained Vision-Language Alignment

被引：0

作者：

Zheng, Min ^{[1
]}

Wu, Chunpeng ^{[1
]}

Qin, Jiaqi ^{[1
]}

Liu, Weiwei ^{[1
]}

Chen, Ming ^{[2
]}

Lin, Long ^{[1
]}

Zhou, Fei ^{[1
]}

机构：

[1] State Grid Smart Grid Res Inst Co Ltd, State Grid Lab Grid Adv Comp & Applicat, Beijing 102209, Peoples R China

[2] Xiamen Power Supply Co, State Grid Fujian Elect Power Co, Xiamen 361004, Peoples R China

来源：

ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING, ICANN 2023, PT VIII | 2023年 / 14261卷

关键词：

Fine-grained vision-language alignment; Shared semantic learning; Global-to-contextual feature representation;

D O I：

10.1007/978-3-031-44198-1_24

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

The primary requisites of fine-grained vision-language alignment focus on learning effective features to discriminate fine-grained sub-categories and aligning heterogeneous data. This paper proposes a global-to-contextual shared semantic learning for fine-grained vision-language alignment method to address the above challenges. Precisely, to enhance the discrimination of features inside intra-modality, this method extracts the global and contextual vision and language features and carries out features joint learning. Further, this method constructs a shared semantic space, which bridges the semantic correlation of heterogeneous data. Extensive experiments demonstrate the effectiveness of our approach.

引用

页码：281 / 293

页数：13

共 50 条

[1] Fine-Grained Visual Prompt Learning of Vision-Language Models for Image Recognition
Sun, Hongbo
He, Xiangteng
Zhou, Jiahuan
Peng, Yuxin
[J]. PROCEEDINGS OF THE 31ST ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2023, 2023, : 5828 - 5836
[2] MAMO: Fine-Grained Vision-Language Representations Learning with Masked Multimodal Modeling
Zhao, Zijia
Guo, Longteng
He, Xingjian
Shao, Shuai
Yuan, Zehuan
Liu, Jing
[J]. PROCEEDINGS OF THE 46TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, SIGIR 2023, 2023, : 1528 - 1538
[3] ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data
Varma, Maya
Delbrouck, Jean-Benoit
Hooper, Sarah
Chaudhari, Akshay
Langlotz, Curtis
[J]. 2023 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2023), 2023, : 22168 - 22178
[4] Auxiliary Fine-grained Alignment Constraints for Vision-and-Language Navigation
Cui, Yibo
Huang, Ruqiang
Zhang, Yakun
Cen, Yingjie
Xie, Liang
Yan, Ye
Yin, Erwei
[J]. 2023 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, ICME, 2023, : 2621 - 2626
[5] Open-set Fine-grained Retrieval via Prompting Vision-Language Evaluator
Wang, Shijie
Chang, Jianlong
Li, Haojie
Wang, Zhihui
Ouyang, Wanli
Tian, Qi
[J]. 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2023, : 19381 - 19391
[6] Fine-grained Semantic Alignment Network forWeakly Supervised Temporal Language Grounding
Wang, Yuechen
Zhou, Wengang
Li, Houqiang
[J]. FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, EMNLP 2021, 2021, : 89 - 99
[7] FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion Vision-Language Pre-training
Han, Yunpeng
Zhang, Lisai
Chen, Qingcai
Chen, Zhijian
Li, Zhonghua
Yang, Jianxin
Cao, Zhao
[J]. 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2023, : 15028 - 15038
[8] Unsupervised Visual-Textual Correlation Learning With Fine-Grained Semantic Alignment
Peng, Yuxin
Ye, Zhaoda
Qi, Jinwei
Zhuo, Yunkan
[J]. IEEE TRANSACTIONS ON CYBERNETICS, 2022, 52 (05) : 3669 - 3683
[9] Domain Adaptative Semantic Segmentation by Fine-Grained Alignment
Li, Zhixin
Li, Wei
Zhang, Jia
[J]. ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING - ICANN 2022, PT IV, 2022, 13532 : 383 - 394
[10] CoPL: Contextual Prompt Learning for Vision-Language Understanding
Goswami, Koustava
Karanam, Srikrishna
Udhayanan, Prateksha
Joseph, K. J.
Srinivasan, Balaji Vasan
[J]. THIRTY-EIGHTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, VOL 38 NO 16, 2024, : 18090 - 18098

← 1 2 3 4 5 →