Multimodal deep fusion for image question answering

被引：20

作者：

Zhang, Weifeng ^{[1
]}

Yu, Jing ^{[2
]}

Wang, Yuxia ^{[3
]}

Wang, Wei ^{[3
]}

机构：

[1] Jiaxing Univ, Coll Math Phys & Informat Engn, Jiaxing, Zhejiang, Peoples R China

[2] Chinese Acad Sci, Inst Informat Engn, Beijing, Peoples R China

[3] Jiangnan Elect Commun Inst, Jiaxing, Zhejiang, Peoples R China

来源：

KNOWLEDGE-BASED SYSTEMS | 2021年 / 212卷

关键词：

Multimodal fusion; Image question answering; Graph neural networks; ATTENTION;

D O I：

10.1016/j.knosys.2020.106639

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Multimodal fusion plays a key role in Image Question Answering (IQA). However, most of the current algorithms are insufficient to fuse multiple relations implied in multimodalities which are vital for predicting correct answers. In this paper, we design an effective Multimodal Deep Fusion Network (MDFNet) to achieve fine-grained multimodal fusion. Specifically, we propose Graph Reasoning and Fusion Layer (GRFL) to reason complex spatial and semantic relations between visual objects and fuse these two kinds of relations adaptively. This fusion strategy allows different relations make different contribution guided by the reasoning step. Then a Multimodal Deep Fusion Network is built based on stacking several GRFLs, to achieve sufficient multimodal fusion. Quantitative and qualitative experiments conducted on popular benchmarks including VQA v2 and GQA reveal the effectiveness of DMFNet. Our best single model achieves 71.19% overall accuracy on VQA v2 dataset, and 57.05% accuracy on GQA dataset. (C) 2020 Elsevier B.V. All rights reserved.

引用

页数：10

共 50 条

[1] DMRFNet: Deep Multimodal Reasoning and Fusion for Visual Question Answering and explanation generation
Zhang, Weifeng
Yu, Jing
Zhao, Wenhong
Ran, Chuan
[J]. INFORMATION FUSION, 2021, 72 : 70 - 79
[2] DMRFNet: Deep Multimodal Reasoning and Fusion for Visual Question Answering and explanation generation
Zhang, Weifeng
Yu, Jing
Zhao, Wenhong
Ran, Chuan
[J]. Information Fusion, 2021, 72 : 70 - 79
[3] Multimodal Graph Reasoning and Fusion for Video Question Answering
Zhang, Shuai
Wang, Xingfu
Hawbani, Ammar
Zhao, Liang
Alsamhi, Saeed Hamood
[J]. 2022 IEEE INTERNATIONAL CONFERENCE ON TRUST, SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS, TRUSTCOM, 2022, : 1410 - 1415
[4] MUTAN: Multimodal Tucker Fusion for Visual Question Answering
Ben-younes, Hedi
Cadene, Remi
Cord, Matthieu
Thome, Nicolas
[J]. 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), 2017, : 2631 - 2639
[5] Deep Multimodal Reinforcement Network with Contextually Guided Recurrent Attention for Image Question Answering
Jiang, Ai-Wen
Liu, Bo
Wang, Ming-Wen
[J]. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2017, 32 (04) : 738 - 748
[6] Deep Multimodal Reinforcement Network with Contextually Guided Recurrent Attention for Image Question Answering
Ai-Wen Jiang
Bo Liu
Ming-Wen Wang
[J]. Journal of Computer Science and Technology, 2017, 32 : 738 - 748
[7] Multimodal fusion: advancing medical visual question-answering
Mudgal, Anjali
Kush, Udbhav
Kumar, Aditya
Jafari, Amir
[J]. Neural Computing and Applications, 2024, 36 (33) : 20949 - 20962
[8] Improving Visual Question Answering by Multimodal Gate Fusion Network
Xiang, Shenxiang
Chen, Qiaohong
Fang, Xian
Guo, Menghao
[J]. 2023 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, IJCNN, 2023,
[9] Multimodal feature fusion by relational reasoning and attention for visual question answering
Zhang, Weifeng
Yu, Jing
Hu, Hua
Hu, Haiyang
Qin, Zengchang
[J]. INFORMATION FUSION, 2020, 55 (55) : 116 - 126
[10] Multimodal Graph Transformer for Multimodal Question Answering
He, Xuehai
Wang, Xin Eric
[J]. 17TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, EACL 2023, 2023, : 189 - 200

← 1 2 3 4 5 →