END-TO-END TRAINING OF A LARGE VOCABULARY END-TO-END SPEECH RECOGNITION SYSTEM

被引：0

作者：

Kim, Chanwoo ^{[1
]}

Kim, Sungsoo ^{[1
]}

Kim, Kwangyoun ^{[1
]}

Kumar, Mehul ^{[1
]}

Kim, Jiyeon ^{[1
]}

Lee, Kyungmin ^{[1
]}

Han, Changwoo ^{[1
]}

Garg, Abhinav ^{[1
]}

Kim, Eunhyang ^{[1
]}

Shin, Minkyoo ^{[1
]}

Singh, Shatrughan ^{[1
]}

Heck, Larry ^{[1
]}

Gowda, Dhananjaya ^{[1
]}

机构：

[1] Samsung Res, Seoul, South Korea

来源：

2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU 2019) | 2019年

关键词：

end-to-end speech recognition; distributed training; example server; data augmentation; acoustic simulation; DEEP-NEURAL-NETWORKS; DATA AUGMENTATION;

D O I：

10.1109/asru46091.2019.9003976

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

In this paper, we present an end-to-end training framework for building state-of-the-art end-to-end speech recognition systems. Our training system utilizes a cluster of Central Processing Units (CPUs) and Graphics Processing Units (GPUs). The entire data reading, large scale data augmentation, neural network parameter updates are all performed "on-the-fly". We use vocal tract length perturbation [1] and an acoustic simulator [2] for data augmentation. The processed features and labels are sent to the GPU cluster. The Horovod allreduce approach is employed to train neural network parameters. We evaluated the effectiveness of our system on the standard Librispeech corpus [3] and the 10,000-hr anonymized Bixby English dataset. Our end-to-end speech recognition system built using this training infrastructure showed a 2.44 % WER on test-clean of the LibriSpeech test set after applying shallow fusion with a Transformer language model (LM). For the proprietary English Bixby open domain test set, we obtained a WER of 7.92 % using a Bidirectional Full Attention (BFA) end-to-end model after applying shallow fusion with an RNN-LM. When the monotonic chunckwise attention (MoCha) based approach is employed for streaming speech recognition, we obtained a WER of 9.95 % on the same Bixby open domain test set.

引用

页码：562 / 569

页数：8

共 50 条

[1] End-to-End Large Vocabulary Speech Recognition for the Serbian Language
Popovic, Branislav
Pakoci, Edvin
Pekar, Darko
[J]. SPEECH AND COMPUTER, SPECOM 2017, 2017, 10458 : 343 - 352
[2] End-to-End Training of Acoustic Models for Large Vocabulary Continuous Speech Recognition with TensorFlow
Variani, Ehsan
Bagby, Tom
McDermott, Erik
Bacchiani, Michiel
[J]. 18TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2017), VOLS 1-6: SITUATED INTERACTION, 2017, : 1641 - 1645
[3] END-TO-END ATTENTION-BASED LARGE VOCABULARY SPEECH RECOGNITION
Bandanau, Dzmitry
Chorowski, Jan
Serdyuk, Dmitriy
Brakel, Philemon
Bengio, Yoshua
[J]. 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, : 4945 - 4949
[4] Large Margin Training for Attention Based End-to-End Speech Recognition
Wang, Peidong
Cui, Jia
Weng, Chao
Yu, Dong
[J]. INTERSPEECH 2019, 2019, : 246 - 250
[5] SELF-TRAINING FOR END-TO-END SPEECH RECOGNITION
Kahn, Jacob
Lee, Ann
Hannun, Awni
[J]. 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 7084 - 7088
[6] End-to-End Multilingual Speech Recognition System with Language Supervision Training
Liu, Danyang
Xu, Ji
Zhang, Pengyuan
[J]. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2020, E103D (06): : 1427 - 1430
[7] ON TRAINING THE RECURRENT NEURAL NETWORK ENCODER-DECODER FOR LARGE VOCABULARY END-TO-END SPEECH RECOGNITION
Lu, Liang
Zhang, Xingxing
Renals, Steve
[J]. 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS, 2016, : 5060 - 5064
[8] IMPROVING UNSUPERVISED STYLE TRANSFER IN END-TO-END SPEECH SYNTHESIS WITH END-TO-END SPEECH RECOGNITION
Liu, Da-Rong
Yang, Chi-Yu
Wu, Szu-Lin
Lee, Hung-Yi
[J]. 2018 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2018), 2018, : 640 - 647
[9] End-to-End Speech Recognition in Russian
Markovnikov, Nikita
Kipyatkova, Irina
Lyakso, Elena
[J]. SPEECH AND COMPUTER (SPECOM 2018), 2018, 11096 : 377 - 386
[10] END-TO-END MULTIMODAL SPEECH RECOGNITION
Palaskar, Shruti
Sanabria, Ramon
Metze, Florian
[J]. 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, : 5774 - 5778

← 1 2 3 4 5 →