Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition

被引：120

作者：

Shinohara, Yusuke ^{[1
]}

机构：

[1] Toshiba Co Ltd, Corp Res & Dev Ctr, Saiwai Ku, 1 Komukai Toshiba Cho, Kawasaki, Kanagawa 2128582, Japan

来源：

17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5: UNDERSTANDING SPEECH PROCESSING IN HUMANS AND MACHINES | 2016年

关键词：

speech recognition; noise robustness; deep neural networks; adversarial multi-task learning;

D O I：

10.21437/Interspeech.2016-879

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

A method of learning deep neural networks (DNNs) for noise robust speech recognition is proposed. It is widely known that representations (activations) of well-trained DNNs are highly invariant to noise, especially in higher layers, and such invariance leads to the noise robustness of DNNs. However, little is known about how to enhance such invariance of representations, which is a key for improving robustness. In this paper, we propose adversarial multi-task learning of DNNs for explicitly enhancing the invariance of representations. Specifically, a primary task of senone classification and a secondary task of domain (noise condition) classification are jointly solved. What is different from the standard multi-task learning is that the representation is learned adversarially to the secondary task, so that representation with low domain-classification accuracy is induced. As a result, senone-discriminative and domain-invariant representation is obtained, which leads to an improved robustness of DNNs. Experimental results on a noise-corrupted Wall Street Journal data set show the effectiveness of the proposed method.

引用

页码：2369 / 2372

页数：4

共 50 条

[1] MULTI-TASK JOINT-LEARNING OF DEEP NEURAL NETWORKS FOR ROBUST SPEECH RECOGNITION
Qian, Yanmin
Yin, Maofan
You, Yongbin
Yu, Kai
[J]. 2015 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU), 2015, : 310 - 316
[2] Multi-task Learning Deep Neural Networks For Speech Feature Denoising
Huang, Bin
Ke, Dengfeng
Zheng, Hao
Xu, Bo
Xu, Yanyan
Su, Kaile
[J]. 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 2464 - 2468
[3] Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition
Zhao, Shengkui
Ni, Chongjia
Tong, Rong
Ma, Bin
[J]. INTERSPEECH 2019, 2019, : 1238 - 1242
[4] MULTI-TASK LEARNING IN DEEP NEURAL NETWORKS FOR IMPROVED PHONEME RECOGNITION
Seltzer, Michael L.
Droppo, Jasha
[J]. 2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2013, : 6965 - 6969
[5] Speech Emotion Recognition in the Wild using Multi-task and Adversarial Learning
Parry, Jack
DeMattos, Eric
Klementiev, Anita
Ind, Axel
Morse-Kopp, Daniela
Clarke, Georgia
Palaz, Dimitri
[J]. INTERSPEECH 2022, 2022, : 1158 - 1162
[6] Multi-Task Learning in Deep Neural Networks for Mandarin-English Code-Mixing Speech Recognition
Chen, Mengzhe
Pan, Jielin
Zhao, Qingwei
Yan, Yonghong
[J]. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2016, E99D (10): : 2554 - 2557
[7] Attribute Knowledge Integration for Speech Recognition Based on Multi-task Learning Neural Networks
Zheng, Hao
Yang, Zhanlei
Qiao, Liwei
Li, Jianping
Liu, Wenju
[J]. 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 543 - 547
[8] MULTI-LINGUAL SPEECH RECOGNITION WITH LOW-RANK MULTI-TASK DEEP NEURAL NETWORKS
Mohan, Aanchan
Rose, Richard
[J]. 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), 2015, : 4994 - 4998
[9] TO REVERSE THE GRADIENT OR NOT: AN EMPIRICAL COMPARISON OF ADVERSARIAL AND MULTI-TASK LEARNING IN SPEECH RECOGNITION
Adi, Yossi
Zeghidour, Neil
Collobert, Ronan
Usunier, Nicolas
Liptchinsky, Vitaliy
Synnaeve, Gabriel
[J]. 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, : 3742 - 3746
[10] MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION
Ravanelli, Mirco
Zhong, Jianyuan
Pascual, Santiago
Swietojanski, Pawel
Monteiro, Joao
Trmal, Jan
Bengio, Yoshua
[J]. 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 6989 - 6993

← 1 2 3 4 5 →