ROBUST SPEECH RECOGNITION FROM RATIO MASKS

被引：0

作者：

Wang, Zhong-Qiu ^{[1
]}

Wang, DeLiang ^{[1
,2
]}

机构：

[1] Ohio State Univ, Dept Comp Sci & Engn, Columbus, OH 43210 USA

[2] Ohio State Univ, Ctr Cognit & Brain Sci, Columbus, OH 43210 USA

来源：

2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS | 2016年

关键词：

Robust ASR; Ideal Ratio Mask; Ideal Binary Mask; CNN; DNN; NOISE;

D O I：

暂无

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Robustness against noise is crucial for automatic speech recognition systems in real-world environments. In this paper, we propose a novel approach that performs robust ASR by directly recognizing ratio masks. In the proposed approach, a deep neural network (DNN) is first trained to estimate the ideal ratio mask (IRM) from a noisy utterance and then a convolutional neural network (CNN) is employed to recognize estimated IRMs. The proposed approach has been evaluated on the TIDigits corpus, and the results demonstrate that direct recognition of ratio masks outperforms direct recognition of binary masks and traditional MMSE-HMM based method for robust ASR.

引用

下载

页码：5720 / 5724

页数：5

共 50 条

[31] Robust recognition of noisy speech using speech enhancement
Xu, YF
Zhang, JJ
Yao, KS
Cao, ZG
Ma, ZX
2000 5TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS, VOLS I-III, 2000, : 734 - 737
[32] ALGONQUIN - Learning dynamic noise models from noisy speech for robust speech recognition
Frey, BJ
Kristjansson, TT
Deng, L
Acero, A
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 14, VOLS 1 AND 2, 2002, 14 : 1165 - 1171
[33] Toward Robust Speech Recognition and Understanding
Sadaoki Furui
Journal of VLSI signal processing systems for signal, image and video technology, 2005, 41 : 245 - 254
[34] An auditory model for robust speech recognition
Luo, Xuewen
Soon, Ing Yann
Yeo, Chai Kiat
2008 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING, VOLS 1 AND 2, PROCEEDINGS, 2008, : 1105 - 1109
[35] Robust speech recognition in telephone network
Han, MS
Park, GB
Park, JG
Han, JQ
PROGRESS IN CONNECTIONIST-BASED INFORMATION SYSTEMS, VOLS 1 AND 2, 1998, : 1103 - 1106
[36] ACOUSTICAL PREPROCESSING FOR ROBUST SPEECH RECOGNITION
STERN, RM
ACERO, A
SPEECH AND NATURAL LANGUAGE, 1989, : 311 - 318
[37] Toward robust speech recognition and understanding
Furui, S
TEXT, SPEECH AND DIALOGUE, PROCEEDINGS, 2003, 2807 : 2 - 11
[38] Robust recognition of children's speech
Potamianos, A
Narayan, S
IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, 2003, 11 (06): : 603 - 616
[39] Special issue on robust speech recognition
Junqua, JC
Haton, JP
SPEECH COMMUNICATION, 1998, 25 (1-3) : 1 - 2
[40] Feature extraction for robust speech recognition
Dharanipragada, S
2002 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS, VOL II, PROCEEDINGS, 2002, : 855 - 858

← 1 2 3 4 5 →