Dynamic Multistep Reasoning based on Video Scene Graph for Video Question Answering

被引：0

作者：

Mao, Jianguo ^{[1
,2
]}

Jiang, Wenbin ^{[3
]}

Wang, Xiangdong ^{[1
]}

Feng, Zhifan ^{[3
]}

Lyu, Yajuan ^{[3
]}

Liu, Hong ^{[1
]}

Zhu, Yong ^{[3
]}

机构：

[1] Chinese Acad Sci, Inst Comp Technol, Beijing Key Lab Mobile Comp & Pervas Device, Beijing, Peoples R China

[2] Univ Chinese Acad Sci, Beijing, Peoples R China

[3] Baidu Inc, Beijing, Peoples R China

来源：

NAACL 2022: THE 2022 CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES | 2022年

基金：

北京市自然科学基金;

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Existing video question answering (video QA) models lack the capacity for deep video understanding and flexible multistep reasoning. We propose for video QA a novel model which performs dynamic multistep reasoning between questions and videos. It creates video semantic representation based on the video scene graph composed of semantic elements of the video and semantic relations among these elements. Then, it performs multistep reasoning for better answer decision between the representations of the question and the video, and dynamically integrate the reasoning results. Experiments show the significant advantage of the proposed model against previous methods in accuracy and interpretability. Against the existing state-of-the-art model, the proposed model dramatically improves more than 4%/3.1%/2% on the three widely used video QA datasets, MSRVTT-QA, MSRVTT multi-choice, and TGIF-QA, and displays better interpretability by backtracing along with the attention mechanisms to the video scene graphs.

引用

页码：3894 / 3904

页数：11

共 50 条

[1] Multimodal Graph Reasoning and Fusion for Video Question Answering
Zhang, Shuai
Wang, Xingfu
Hawbani, Ammar
Zhao, Liang
Alsamhi, Saeed Hamood
2022 IEEE INTERNATIONAL CONFERENCE ON TRUST, SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS, TRUSTCOM, 2022, : 1410 - 1415
[2] Reasoning with Heterogeneous Graph Alignment for Video Question Answering
Jiang, Pin
Han, Yahong
THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, THE THIRTY-SECOND INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE AND THE TENTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, 2020, 34 : 11109 - 11116
[3] Graph-based relational reasoning network for video question answering
Tan, Tao
Sun, Guanglu
MACHINE VISION AND APPLICATIONS, 2025, 36 (01)
[4] Video Graph Transformer for Video Question Answering
Xiao, Junbin
Zhou, Pan
Chua, Tat-Seng
Yan, Shuicheng
COMPUTER VISION, ECCV 2022, PT XXXVI, 2022, 13696 : 39 - 58
[5] DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering
Wang, Jianyu
Bao, Bing-Kun
Xu, Changsheng
IEEE TRANSACTIONS ON MULTIMEDIA, 2021, 24 : 3369 - 3380
[6] Video Question Answering With Semantic Disentanglement and Reasoning
Liu, Jin
Wang, Guoxiang
Xie, Jialong
Zhou, Fengyu
Xu, Huijuan
IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2024, 34 (05) : 3663 - 3673
[7] Contrastive Video Question Answering via Video Graph Transformer
Xiao, Junbin
Zhou, Pan
Yao, Angela
Li, Yicong
Hong, Richang
Yan, Shuicheng
Chua, Tat-Seng
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2023, 45 (11) : 13265 - 13280
[8] ReGR: Relation-aware graph reasoning framework for video question answering
Wang, Zheng
Li, Fangtao
Ota, Kaoru
Dong, Mianxiong
Wu, Bin
INFORMATION PROCESSING & MANAGEMENT, 2023, 60 (04)
[9] Event Graph Guided Compositional Spatial--Temporal Reasoning for Video Question Answering
Bai, Ziyi
Wang, Ruiping
Gao, Difei
Chen, Xilin
IEEE TRANSACTIONS ON IMAGE PROCESSING, 2024, 33 : 1109 - 1121
[10] Visual Causal Scene Refinement for Video Question Answering
Wei, Yushen
Liu, Yang
Yan, Hong
Li, Guanbin
Lin, Liang
PROCEEDINGS OF THE 31ST ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2023, 2023, : 377 - 386

← 1 2 3 4 5 →