Audio-Visual Fusion using Multiscale Temporal Convolutional Attention for Time-Domain Speech Separation

被引：0

作者：

Liu, Debang ^{[1
]}

Zhang, Tianqi ^{[1
]}

Christensen, Mads Graesboll ^{[2
]}

Wei, Ying ^{[1
]}

An, Zeliang ^{[1
]}

机构：

[1] Chongqing Univ Posts & Telecommun, Sch Commun & Informat Engn, Chongqing 400065, Peoples R China

[2] Aalborg Univ, Audio Anal Lab, CREATE, DK-9000 Aalborg, Denmark

来源：

INTERSPEECH 2023 | 2023年

基金：

中国国家自然科学基金;

关键词：

audio-visual fusion; time-domain; speech separation; temporal convolutional attention; training cost;

D O I：

10.21437/Interspeech.2023-801

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Audio-only speech separation methods cannot fully exploit audio-visual correlation information of speaker, which limits separation performance. Additionally, audio-visual separation methods usually adopt traditional idea of feature splicing and linear mapping to fuse audio-visual features, this approach requires us to think more about fusion process. Therefore, in this paper, combining with the changes of speaker mouth landmarks, we propose a time-domain audio-visual temporal convolution attention speech separation method (AVTA). In AVTA, we design a multiscale temporal convolutional attention (MTCA) to better focus on contextual dependencies of time sequences. We then use sequence learning and fusion network composed of MTCA to build a separation model for speech separation task. On different datasets, AVTA achieves competitive performance, and compared to baseline methods, AVTA is better balanced in training cost, computational complexity and separation performance.

引用

页码：3694 / 3698

页数：5

共 50 条

[21] Weighting schemes for audio-visual fusion in speech recognition
Glotin, H
Vergyri, D
Neti, C
Potamianos, G
Luettin, J
2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS I-VI, PROCEEDINGS: VOL I: SPEECH PROCESSING 1; VOL II: SPEECH PROCESSING 2 IND TECHNOL TRACK DESIGN & IMPLEMENTATION OF SIGNAL PROCESSING SYSTEMS NEURALNETWORKS FOR SIGNAL PROCESSING; VOL III: IMAGE & MULTIDIMENSIONAL SIGNAL PROCESSING MULTIMEDIA SIGNAL PROCESSING, 2001, : 173 - 176
[22] Multistage information fusion for audio-visual speech recognition
Chu, SM
Libal, V
Marcheret, E
Neti, C
Potamianos, G
2004 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXP (ICME), VOLS 1-3, 2004, : 1651 - 1654
[23] Audio-Visual Multilevel Fusion for Speech and Speaker Recognition
Chetty, Girija
Wagner, Michael
INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5, 2008, : 379 - 382
[24] Fusion of audio-visual information for integrated speech processing
Nakamura, S
AUDIO- AND VIDEO-BASED BIOMETRIC PERSON AUTHENTICATION, PROCEEDINGS, 2001, 2091 : 127 - 143
[25] Information Fusion Techniques in Audio-Visual Speech Recognition
Karabalkan, H.
Erdogan, H.
2009 IEEE 17TH SIGNAL PROCESSING AND COMMUNICATIONS APPLICATIONS CONFERENCE, VOLS 1 AND 2, 2009, : 734 - 737
[26] A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM
Lan C.-F.
Wang S.-B.
Guo X.-X.
Han Y.-L.
Kang S.-Q.
Tien Tzu Hsueh Pao/Acta Electronica Sinica, 2023, 51 (04): : 914 - 921
[27] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks
Hou, Jen-Cheng
Wang, Syu-Siang
Lai, Ying-Hui
Tsao, Yu
Chang, Hsiu-Wen
Wang, Hsin-Min
IEEE TRANSACTIONS ON EMERGING TOPICS IN COMPUTATIONAL INTELLIGENCE, 2018, 2 (02): : 117 - 128
[28] Developing an audio-visual speech source separation algorithm
Sodoyer, D
Girin, L
Jutten, C
Schwartz, JL
SPEECH COMMUNICATION, 2004, 44 (1-4) : 113 - 125
[29] Real-time speaker localization and speech separation by audio-visual integration
Nakadai, K
Hidai, K
Okuno, HG
Kitano, H
2002 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, VOLS I-IV, PROCEEDINGS, 2002, : 1043 - 1049
[30] Multi-Attention Audio-Visual Fusion Network for Audio Spatialization
Zhang, Wen
Shao, Jie
PROCEEDINGS OF THE 2021 INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL (ICMR '21), 2021, : 394 - 401

← 1 2 3 4 5 →