Enhancing Video Summarization via Vision-Language Embedding

被引：46

作者：

Plummer, Bryan A. ^{[1
]}

Brown, Matthew ^{[2
]}

Lazebnik, Svetlana ^{[1
]}

机构：

[1] Univ Illinois, Urbana, IL 61801 USA

[2] Google Res, Mountain View, CA USA

来源：

30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017) | 2017年

基金：

美国国家科学基金会;

关键词：

D O I：

10.1109/CVPR.2017.118

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

This paper addresses video summarization, or the problem of distilling a raw video into a shorter form while still capturing the original story. We show that visual representations supervised by freeform language make a good fit for this application by extending a recent submodular summarization approach [9] with representativeness and interestingness objectives computed on features from a joint vision-language embedding space. We perform an evaluation on two diverse datasets, UT Egocentric [18] and TV Episodes [45], and show that our new objectives give improved summarization ability compared to standard visual features alone. Our experiments also show that the vision-language embedding need not be trained on domainspecific data, but can be learned from standard still image vision-language datasets and transferred to video. A further benefit of our model is the ability to guide a summary using freeform text input at test time, allowing user customization.

引用

页码：1052 / 1060

页数：9

共 50 条

[31] Correctable Landmark Discovery via Large Models for Vision-Language Navigation
Lin, Bingqian
Nie, Yunshuang
Wei, Ziming
Zhu, Yi
Xu, Hang
Ma, Shikui
Liu, Jianzhuang
Liang, Xiaodan
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2024, 46 (12) : 8534 - 8548
[32] Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation
Dai, Wenliang
Hou, Lu
Shang, Lifeng
Jiang, Xin
Liu, Qun
Fung, Pascale
FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (ACL 2022), 2022, : 2383 - 2395
[33] Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles
Ye, Shuquan
Xie, Yujia
Chen, Dongdong
Xu, Yichong
Yuan, Lu
Zhu, Chenguang
Liao, Jing
2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR, 2023, : 2634 - 2645
[34] Image as a Foreign Language: BEIT Pretraining for Vision and Vision-Language Tasks
Wang, Wenhui
Bao, Hangbo
Dong, Li
Bjorck, Johan
Peng, Zhiliang
Liu, Qiang
Aggarwal, Kriti
Mohammed, Owais Khan
Singhal, Saksham
Som, Subhojit
Wei, Furu
2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2023, : 19175 - 19186
[35] Masked Vision-language Transformer in Fashion
Ji, Ge-Peng
Zhuge, Mingchen
Gao, Dehong
Fan, Deng-Ping
Sakaridis, Christos
Gool, Luc Van
MACHINE INTELLIGENCE RESEARCH, 2023, 20 (03) : 421 - 434
[36] Masked Vision-language Transformer in Fashion
Ge-Peng Ji
Mingchen Zhuge
Dehong Gao
Deng-Ping Fan
Christos Sakaridis
Luc Van Gool
Machine Intelligence Research, 2023, 20 : 421 - 434
[37] Learning to Prompt for Vision-Language Models
Zhou, Kaiyang
Yang, Jingkang
Loy, Chen Change
Liu, Ziwei
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2022, 130 (09) : 2337 - 2348
[38] Causal Attention for Vision-Language Tasks
Yang, Xu
Zhang, Hanwang
Qi, Guojun
Cai, Jianfei
2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021, 2021, : 9842 - 9852
[39] Vision-Language Models for Biomedical Applications
Thapa, Surendrabikram
Naseem, Usman
Zhou, Luping
Kim, Jinman
PROCEEDINGS OF THE FIRST INTERNATIONAL WORKSHOP ON VISION-LANGUAGE MODELS FOR BIOMEDICAL APPLICATIONS, VLM4BIO 2024, 2024, : 1 - 2
[40] Debiasing vision-language models for vision tasks: a survey
Zhu, Beier
Zhang, Hanwang
FRONTIERS OF COMPUTER SCIENCE, 2025, 19 (01)

← 1 2 3 4 5 →