A Multi-dimensional study on Bias in Vision-Language models

被引：0

作者：

Ruggeri, Gabriele ^{[1
]}

Nozza, Debora ^{[2
]}

机构：

[1] Univ Trieste, Trieste, Italy

[2] Bocconi Univ, Milan, Italy

来源：

FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, ACL 2023 | 2023年

关键词：

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

In recent years, joint Vision-Language (VL) models have increased in popularity and capability. Very few studies have attempted to investigate bias in VL models, even though it is a well-known issue in both individual modalities. This paper presents the first multi-dimensional analysis of bias in English VL models, focusing on gender, ethnicity, and age as dimensions. When subjects are input as images, pre-trained VL models complete a neutral template with a hurtful word 5% of the time, with higher percentages for female and young subjects. Bias presence in downstream models has been tested on Visual Question Answering. We developed a novel bias metric called the Vision-Language Association Test based on questions designed to elicit biased associations between stereotypical concepts and targets. Our findings demonstrate that pre-trained VL models contain biases that are perpetuated in downstream tasks.

引用

页码：6445 / 6455

页数：11

共 50 条

[31] Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks
Zhang, Xinsong
Zeng, Yan
Zhang, Jipeng
Li, Hang
FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS - EMNLP 2023, 2023, : 551 - 568
[32] InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding
Zhang, Huaxiang
Mu, Yaojia
Zhu, Guo-Niu
Gan, Zhongxue
2024 IEEE INTERNATIONAL CONFERENCE ON MECHATRONICS AND AUTOMATION, ICMA 2024, 2024, : 1471 - 1476
[33] Task-Oriented Multi-Modal Mutual Learning for Vision-Language Models
Long, Sifan
Zhao, Zhen
Yuan, Junkun
Tan, Zichang
Liu, Jiangjiang
Zhou, Luping
Wang, Shengsheng
Wang, Jingdong
2023 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2023), 2023, : 21902 - 21912
[34] Multi-Resolution Sensing for Real-Time Control with Vision-Language Models
Saxena, Saumya
Sharma, Mohit
Kroemer, Oliver
CONFERENCE ON ROBOT LEARNING, VOL 229, 2023, 229
[35] Fine-grained multi-modal prompt learning for vision-language models
Liu, Yunfei
Deng, Yunziwei
Liu, Anqi
Liu, Yanan
Li, Shengyang
NEUROCOMPUTING, 2025, 636
[36] Multi-task prompt tuning with soft context sharing for vision-language models
Ding, Kun
Wang, Ying
Liu, Pengzhang
Yu, Qiang
Zhang, Haojian
Xiang, Shiming
Pan, Chunhong
NEUROCOMPUTING, 2024, 603
[37] VinVL: Revisiting Visual Representations in Vision-Language Models
Zhang, Pengchuan
Li, Xiujun
Hu, Xiaowei
Yang, Jianwei
Zhang, Lei
Wang, Lijuan
Choi, Yejin
Gao, Jianfeng
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 5575 - 5584
[38] Evaluating Attribute Comprehension in Large Vision-Language Models
Zhang, Haiwen
Yang, Zixi
Liu, Yuanzhi
Wang, Xinran
He, Zheqi
Liang, Kongming
Ma, Zhanyu
PATTERN RECOGNITION AND COMPUTER VISION, PT V, PRCV 2024, 2025, 15035 : 98 - 113
[39] Towards an Exhaustive Evaluation of Vision-Language Foundation Models
Salin, Emmanuelle
Ayache, Stephane
Favre, Benoit
2023 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS, ICCVW, 2023, : 339 - 352
[40] Attention Prompting on Image for Large Vision-Language Models
Yu, Runpeng
Yu, Weihao
Wang, Xinchao
COMPUTER VISION - ECCV 2024, PT XXX, 2025, 15088 : 251 - 268

← 1 2 3 4 5 →