Anatomical Structure-Guided Medical Vision-Language Pre-training

被引：0

作者：

Li, Qingqiu ^{[1
]}

Yan, Xiaohan ^{[2
]}

Xu, Jilan ^{[3
]}

Yuan, Runtian ^{[3
]}

Zhang, Yuejie ^{[3
]}

Feng, Rui ^{[1
,3
]}

Shen, Quanli ^{[4
]}

Zhang, Xiaobo ^{[4
]}

Wang, Shujun ^{[5
,6
]}

机构：

[1] Fudan Univ, Sch Acad Engn & Technol, Shanghai, Peoples R China

[2] Tongji Univ, CAD Res Ctr, Shanghai, Peoples R China

[3] Fudan Univ, Sch Comp Sci, Shanghai, Peoples R China

[4] Fudan Univ, Childrens Hosp, Natl Childrens Med Ctr, Shanghai, Peoples R China

[5] Hong Kong Polytech Univ, Dept Biomed Engn, Hong Kong, Peoples R China

[6] Hong Kong Polytech Univ, Res Inst Smart Ageing, Hong Kong, Peoples R China

来源：

MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION - MICCAI 2024, PT XI | 2024年 / 15011卷

关键词：

Representation Learning; Medical Vision-Language Pre-training; Contrastive Learning; Anatomical Structure;

D O I：

10.1007/978-3-031-72120-5_8

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Learning medical visual representations through vision-language pre-training has reached remarkable progress. Despite the promising performance, it still faces challenges, i.e., local alignment lacks interpretability and clinical relevance, and the insufficient internal and external representation learning of image-report pairs. To address these issues, we propose an Anatomical Structure-Guided (ASG) framework. Specifically, we parse raw reports into triplets <anatomical region, finding, existence>, and fully utilize each element as supervision to enhance representation learning. For anatomical region, we design an automatic anatomical region-sentence alignment paradigm in collaboration with radiologists, considering them as the minimum semantic units to explore fine-grained local alignment. For finding and existence, we regard them as image tags, applying an image-tag recognition decoder to associate image features with their respective tags within each sample and constructing soft labels for contrastive learning to improve the semantic association of different image-report pairs. We evaluate the proposed ASG framework on two downstream tasks, including five public benchmarks. Experimental results demonstrate that our method outperforms the state-of-the-art methods. Our code is available at https://asgmvlp.github.io.

引用

页码：80 / 90

页数：11

共 50 条

[31] Multi-Task Paired Masking With Alignment Modeling for Medical Vision-Language Pre-Training
Zhang, Ke
Yang, Yan
Yu, Jun
Jiang, Hanliang
Fan, Jianping
Huang, Qingming
Han, Weidong
IEEE TRANSACTIONS ON MULTIMEDIA, 2024, 26 : 4706 - 4721
[32] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone
Dou, Zi-Yi
Kamath, Aishwarya
Gan, Zhe
Zhang, Pengchuan
Wang, Jianfeng
Li, Linjie
Liu, Zicheng
Liu, Ce
LeCun, Yann
Peng, Nanyun
Gao, Jianfeng
Wang, Lijuan
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 35 (NEURIPS 2022), 2022,
[33] Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends
Gan, Zhe
Li, Linjie
Li, Chunyuan
Wang, Lijuan
Liu, Zicheng
Gao, Jianfeng
FOUNDATIONS AND TRENDS IN COMPUTER GRAPHICS AND VISION, 2022, 14 (3-4): : 163 - 352
[34] Kaleido-BERT: Vision-Language Pre-training on Fashion Domain
Zhuge, Mingchen
Gao, Dehong
Fan, Deng-Ping
Jin, Linbo
Chen, Ben
Zhou, Haoming
Qiu, Minghui
Shao, Ling
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 12642 - 12652
[35] ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation
Wang, Weihan
Yang, Zhen
Xu, Bin
Li, Juanzi
Sun, Yankui
2023 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION, ICCV, 2023, : 3135 - 3146
[36] Subsampling of Frequent Words in Text for Pre-training a Vision-Language Model
Liang, Mingliang
Larson, Martha
PROCEEDINGS OF THE 1ST WORKSHOP ON LARGE GENERATIVE MODELS MEET MULTIMODAL APPLICATIONS, LGM3A 2023, 2023, : 61 - 67
[37] EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
Mu, Yao
Zhang, Qinglong
Hu, Mengkang
Wang, Wenhai
Ding, Mingyu
Jin, Jun
Wang, Bin
Dai, Jifeng
Qiao, Yu
Luo, Ping
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), 2023,
[38] Fine-Grained Semantically Aligned Vision-Language Pre-Training
Li, Juncheng
He, Xin
Wei, Longhui
Qian, Long
Zhu, Linchao
Xie, Lingxi
Zhuang, Yueting
Tian, Qi
Tang, Siliang
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 35 (NEURIPS 2022), 2022,
[39] Multi-Modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training
Moon, Jong Hak
Lee, Hyungyung
Shin, Woncheol
Kim, Young-Hak
Choi, Edward
IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS, 2022, 26 (12) : 6070 - 6080
[40] MAKE: Vision-Language Pre-training based Product Retrieval in Taobao Search
Zheng, Xiaoyang
Wang, Zilong
Li, Sen
Xu, Ke
Zhuang, Tao
Liu, Qingwen
Zeng, Xiaoyi
COMPANION OF THE WORLD WIDE WEB CONFERENCE, WWW 2023, 2023, : 356 - 360

← 1 2 3 4 5 →