Systems for Low-Resource Speech Recognition Tasks in Open Automatic Speech Recognition and Formosa Speech Recognition Challenges

被引：2

作者：

Lin, Hung-Pang ^{[1
]}

Zhang, Yu-Jia ^{[1
]}

Chen, Chia-Ping ^{[1
]}

机构：

[1] Natl Sun Yat Sen Univ, Kaohsiung, Taiwan

来源：

INTERSPEECH 2021 | 2021年

关键词：

low-resource speech recognition; Transformer; Conformer; domain adversarial training; TRANSFORMER; CONVOLUTION;

D O I：

10.21437/Interspeech.2021-358

中图分类号：

R36 [病理学]; R76 [耳鼻咽喉科学];

学科分类号：

100104 ; 100213 ;

摘要：

We, in the team name of NSYSU-MITLab, have participated in low-resource speech recognition of the Open Automatic Speech Recognition Challenge 2020 (OpenASR20) and Formosa Speech Recognition Challenge 2020 (FSR-2020). For the tasks in the challenges, we build and compare end-to-end (E2E) systems and Deep Neural Network Hidden Markov Model (DNN-HMM) systems. In E2E systems, we implement an encoder with Conformer architecture and a decoder with Transformer architecture. In addition, a speaker classifier with a gradient reversal layer is included in the training phase to improve the robustness to speaker variation. In DNN-HMM systems, we implement the Time-Restricted Self-Attention and Factorized Time Delay Neural Networks for the DNN front-end acoustic representation learning. In OpenASR20, the best word error rates we achieved are 61.45% for Cantonese and 74.61% for Vietnamese. In FSR-2020, the best character error rate we achieved is 43.4% for Taiwanese Southern Min Recommended Characters and the best syllable error rate is 25.4% for Taiwan Minnanyu Luomazi Pinyin.

引用

页码：4339 / 4343

页数：5

共 50 条

[21] SPEECH DISFLUENCIES MODELING IN AUTOMATIC SPEECH RECOGNITION SYSTEMS
Vasilisa, Verkhodanova O.
Alexey, Karpov A.
[J]. TOMSK STATE UNIVERSITY JOURNAL, 2012, (363): : 10 - +
[22] DEPLOYABLE AUTOMATIC SPEECH RECOGNITION SYSTEMS - ADVANCES AND CHALLENGES
JUANG, BH
PERDUE, RJ
THOMSON, DL
[J]. AT&T TECHNICAL JOURNAL, 1995, 74 (02): : 45 - 56
[23] Speech production and automatic speech recognition
[J]. Acoustics Bulletin, 2000, 25 (02):
[24] AUTOMATIC SPEECH RECOGNITION OF IMPAIRED SPEECH
CARLSON, GS
BERNSTEIN, J
[J]. INTERNATIONAL JOURNAL OF REHABILITATION RESEARCH, 1988, 11 (04) : 396 - 398
[25] META-LEARNING FOR LOW-RESOURCE SPEECH EMOTION RECOGNITION
Chopra, Suransh
Mathur, Puneet
Sawhney, Ramit
Shah, Rajiv Ratn
[J]. 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, : 6259 - 6263
[26] EXPLORING EFFECTIVE DATA UTILIZATION FOR LOW-RESOURCE SPEECH RECOGNITION
Zhou, Zhikai
Wang, Wei
Zhang, Wangyou
Qian, Yanmin
[J]. 2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 8192 - 8196
[27] Convolutional Maxout Neural Networks for Low-Resource Speech Recognition
Cai, Meng
Shi, Yongzhe
Kang, Jian
Liu, Jia
Su, Tengrong
[J]. 2014 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP), 2014, : 133 - +
[28] Low-resource Sinhala Speech Recognition using Deep Learning
Karunathilaka, Hirunika
Welgama, Viraj
Nadungodage, Thilini
Weerasinghe, Ruvan
[J]. 2020 20TH INTERNATIONAL CONFERENCE ON ADVANCES IN ICT FOR EMERGING REGIONS (ICTER-2020), 2020, : 196 - 201
[29] Adversarial Meta Sampling for Multilingual Low-Resource Speech Recognition
Xiao, Yubei
Gong, Ke
Zhou, Pan
Zheng, Guolin
Liang, Xiaodan
Lin, Liang
[J]. THIRTY-FIFTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, THIRTY-THIRD CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE AND THE ELEVENTH SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, 2021, 35 : 14112 - 14120
[30] Acoustic Modeling for Hindi Speech Recognition in Low-Resource Settings
Dey, Anik
Zhang, Weibin
Fung, Pascale
[J]. 2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2, 2014, : 891 - 894

← 1 2 3 4 5 →