ATTENTION-BASED MODELS FOR TEXT-DEPENDENT SPEAKER VERIFICATION

被引：0

作者：

Chowdhury, F. A. Rezaur Rahman ^{[1
]}

Wang, Quan ^{[2
]}

Moreno, Ignacio Lopez ^{[2
]}

Wan, Li ^{[2
]}

机构：

[1] Washington State Univ, Pullman, WA 99164 USA

[2] Google Inc, Mountain View, CA USA

来源：

2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) | 2018年

关键词：

Attention-based model; sequence summarization; speaker recognition; pooling; LSTM;

D O I：

暂无

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Attention-based models have recently shown great performance on a range of tasks, such as speech recognition, machine translation, and image captioning due to their ability to summarize relevant information that expands through the entire length of an input sequence. In this paper, we analyze the usage of attention mechanisms to the problem of sequence summarization in our end-to-end text-dependent speaker recognition system. We explore different topologies and their variants of the attention layer. and compare different pooling methods on the attention weights. Ultimately, we show that attention-based models can improves the Equal Error Rate (EER) of our speaker verification system by relatively 14% compared to our non-attention LSTM baseline model.

引用

页码：5359 / 5363

页数：5

共 50 条

[31] TEXT-DEPENDENT GMM-JFA SYSTEM FOR PASSWORD BASED SPEAKER VERIFICATION
Novoselov, Sergey
Pekhovsky, Timur
Shulipa, Andrey
Sholokhov, Alexey
[J]. 2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2014,
[32] Text-dependent speaker verification based on i-vectors, Neural Networks and Hidden Markov Models
Zeinali, Hossein
Sameti, Hossein
Burget, Lukas
Cernocky, Jan Honza
[J]. COMPUTER SPEECH AND LANGUAGE, 2017, 46 : 53 - 71
[33] SYNAUG: SYNTHESIS-BASED DATA AUGMENTATION FOR TEXT-DEPENDENT SPEAKER VERIFICATION
Du, Chenpeng
Han, Bing
Wang, Shuai
Qian, Yanmin
Yu, Kai
[J]. 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, : 5844 - 5848
[34] Voice Transformation-based Spoofing of Text-Dependent Speaker Verification Systems
Kons, Zvi
Aronowitz, Hagai
[J]. 14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5, 2013, : 945 - 949
[35] An alternative normalization scheme in HMM-based text-dependent speaker verification
Charlet, D
Jouvet, D
Collin, O
[J]. SPEECH COMMUNICATION, 2000, 31 (2-3) : 113 - 120
[36] Cohort Selection for Text-dependent Speaker Verification Score Normalization
Khemiri, Houssemeddine
Petrovska-Delacretaz, Dijana
[J]. 2016 2ND INTERNATIONAL CONFERENCE ON ADVANCED TECHNOLOGIES FOR SIGNAL AND IMAGE PROCESSING (ATSIP), 2016, : 689 - 692
[37] BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020
Lozano-Diez, Alicia
Silnova, Anna
Pulugundla, Bhargav
Rohdin, Johan
Vesely, Karel
Burget, Lukas
Plchot, Oldrich
Glembek, Ondrej
Novotny, Ondvrej
Matejka, Pavel
[J]. INTERSPEECH 2020, 2020, : 761 - 765
[38] Unsupervised Learning of HMM Topology for Text-dependent Speaker Verification
Liu, Ming
Huang, Thomas
[J]. INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5, 2006, : 921 - 924
[39] Tandem Features for Text-dependent Speaker Verification on the RedDots Corpus
Alam, Md Jahangir
Kenny, Patrick
Gupta, Vishwa
[J]. 17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5: UNDERSTANDING SPEECH PROCESSING IN HUMANS AND MACHINES, 2016, : 420 - 424
[40] Multi-Task Learning for Text-dependent Speaker Verification
Chen, Nanxin
Qian, Yanmin
Yu, Kai
[J]. 16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 185 - 189

← 1 2 3 4 5 →