Bidirectional Relationship Inferring Network for Referring Image Localization and Segmentation

被引：11

作者：

Feng, Guang ^{[1
]}

Hu, Zhiwei ^{[1
]}

Zhang, Lihe ^{[1
]}

Sun, Jiayu ^{[1
]}

Lu, Huchuan ^{[1
]}

机构：

[1] Dalian Univ Technol, Sch Informat & Commun Engn, Dalian 116024, Peoples R China

来源：

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS | 2023年 / 34卷 / 05期

基金：

中国国家自然科学基金;

关键词：

Image segmentation; Location awareness; Visualization; Task analysis; Linguistics; Semantics; Feature extraction; Language-guided visual attention; referring image localization and segmentation; segmentation-guided feature augmentation; vision-guided linguistic attention (VLAM);

D O I：

10.1109/TNNLS.2021.3106153

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Recently, referring image localization and segmentation has aroused widespread interest. However, the existing methods lack a clear description of the interdependence between language and vision. To this end, we present a bidirectional relationship inferring network (BRINet) to effectively address the challenging tasks. Specifically, we first employ a vision-guided linguistic attention module to perceive the keywords corresponding to each image region. Then, language-guided visual attention adopts the learned adaptive language to guide the update of the visual features. Together, they form a bidirectional cross-modal attention module (BCAM) to achieve the mutual guidance between language and vision. They can help the network align the cross-modal features better. Based on the vanilla language-guided visual attention, we further design an asymmetric language-guided visual attention, which significantly reduces the computational cost by modeling the relationship between each pixel and each pooled subregion. In addition, a segmentation-guided bottom-up augmentation module (SBAM) is utilized to selectively combine multilevel information flow for object localization. Experiments show that our method outperforms other state-of-the-art methods on three referring image localization datasets and four referring image segmentation datasets.

引用

页码：2246 / 2258

页数：13

共 50 条

[21] Toward Robust Referring Image Segmentation
Wu, Jianzong
Li, Xiangtai
Li, Xia
Ding, Henghui
Tong, Yunhai
Tao, Dacheng
IEEE Transactions on Image Processing, 2024, 33 : 1782 - 1794
[22] Toward Robust Referring Image Segmentation
Wu, Jianzong
Li, Xiangtai
Li, Xia
Ding, Henghui
Tong, Yunhai
Tao, Dacheng
IEEE TRANSACTIONS ON IMAGE PROCESSING, 2024, 33 : 1782 - 1794
[23] Mask Grounding for Referring Image Segmentation
Chng, Yong Xien
Zheng, Henry
Han, Yizeng
Qiu, Xuchong
Huang, Gao
2024 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2024, : 26563 - 26573
[24] Two-stage visual cues enhancement network for referring image segmentation
Jiao, Yang
Jie, Zequn
Luo, Weixin
Chen, Jingjing
Jiang, Yu-Gang
Wei, Xiaolin
Ma, Lin
arXiv, 2021,
[25] Cross-Modal Self-Attention Network for Referring Image Segmentation
Ye, Linwei
Rochan, Mrigank
Liu, Zhi
Wang, Yang
2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2019), 2019, : 10494 - 10503
[26] GENERATIVE ADVERSARIAL NETWORK INCLUDING REFERRING IMAGE SEGMENTATION FOR TEXT-GUIDED IMAGE MANIPULATION
Watanabe, Yuto
Togo, Ren
Maeda, Keisuke
Ogawa, Takahiro
Haseyama, Miki
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 4818 - 4822
[27] CMIRNet: Cross-Modal Interactive Reasoning Network for Referring Image Segmentation
Xu, Mingzhu
Xiao, Tianxiang
Liu, Yutong
Tang, Haoyu
Hu, Yupeng
Nie, Liqiang
IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2025, 35 (04) : 3234 - 3249
[28] Two-stage Visual Cues Enhancement Network for Referring Image Segmentation
Jiao, Yang
Jie, Zequn
Luo, Weixin
Chen, Jingjing
Jiang, Yu-Gang
Wei, Xiaolin
Ma, Lin
PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, MM 2021, 2021, : 1331 - 1340
[29] SATR: Semantics-Aware Triadic Refinement network for referring image segmentation
Xie, Jialong
Liu, Jin
Wang, Guoxiang
Zhou, Fengyu
KNOWLEDGE-BASED SYSTEMS, 2024, 284
[30] Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation
Feng, Guang
Hu, Zhiwei
Zhang, Lihe
Lu, Huchuan
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 15501 - 15510

← 1 2 3 4 5 →