CNN WITH PHONETIC ATTENTION FOR TEXT-INDEPENDENT SPEAKER VERIFICATION

被引：0

作者：

Zhou, Tianyan ^{[1
]}

Zhao, Yong ^{[1
]}

Li, Jinyu ^{[1
]}

Gong, Yifan ^{[1
]}

Wu, Jian ^{[1
]}

机构：

[1] Microsoft Corp, Ft Collins, CO 80525 USA

来源：

2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU 2019) | 2019年

关键词：

speaker verification; attentive pooling; phonetic information;

D O I：

10.1109/asru46091.2019.9003826

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Text-independent speaker verification imposes no constraints on the spoken content and usually needs long observations to make reliable prediction. In this paper, we propose two speaker embedding approaches by integrating the phonetic information into the attention-based residual convolutional neural network (CNN). Phonetic features are extracted from the bottleneck layer of a pretrained acoustic model. In implicit phonetic attention (IPA), the phonetic features are projected by a transformation network into multi-channel feature maps, and then combined with the raw acoustic features as the input of the CNN network. In explicit phonetic attention (EPA), the phonetic features are directly connected to the attentive pooling layer through a separate 1-dim CNN to generate the attention weights. With the incorporation of spoken content and attention mechanism, the system can not only distill the speaker-discriminant frames but also actively normalize the phonetic variations. Multi-head attention and discriminative objectives are further studied to improve the system. Experiments on the VoxCeleb corpus show our proposed system could outperform the state-of-the-art by around 43% relative.

引用

页码：718 / 725

页数：8

共 50 条

[1] Text-Independent Speaker Verification with Dual Attention Network
Li, Jingyu
Lee, Tan
[J]. INTERSPEECH 2020, 2020, : 956 - 960
[2] Self-Attention Networks for Text-Independent Speaker Verification
Bian, Tengyue
Chen, Fangzhou
Xu, Li
[J]. PROCEEDINGS OF THE 2019 31ST CHINESE CONTROL AND DECISION CONFERENCE (CCDC 2019), 2019, : 3955 - 3960
[3] A tutorial on text-independent speaker verification
Bimbot, F
Bonastre, JF
Fredouille, C
Gravier, G
Magrin-Chagnolleau, I
Meignier, S
Merlin, T
Ortega-García, J
Petrovska-Delacrétaz, D
Reynolds, DA
[J]. EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING, 2004, 2004 (04) : 430 - 451
[4] A Tutorial on Text-Independent Speaker Verification
Frédéric Bimbot
Jean-François Bonastre
Corinne Fredouille
Guillaume Gravier
Ivan Magrin-Chagnolleau
Sylvain Meignier
Teva Merlin
Javier Ortega-García
Dijana Petrovska-Delacrétaz
Douglas A. Reynolds
[J]. EURASIP Journal on Advances in Signal Processing, 2004
[5] Context-adaptive Gaussian Attention for Text-independent Speaker Verification
Peng, Junyi
Gu, Rongzhi
Zhang, Haoran
Zou, Yuexian
[J]. 2020 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2020, : 595 - 599
[6] Fusing Acoustic, Phonetic and Data-Driven Systems for Text-Independent Speaker Verification
El Hannani, Asmaa
Petrovska-Delacretaz, Dijana
[J]. INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4, 2007, : 2764 - 2767
[7] Graphical models for text-independent speaker verification
Sánchez-Soto, E
Sigelle, M
Chollet, G
[J]. NONLINEAR SPEECH MODELING AND APPLICATIONS, 2005, 3445 : 410 - 415
[8] Language dependency in text-independent speaker verification
Auckenthaler, R
Carey, MJ
Mason, JSD
[J]. 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS I-VI, PROCEEDINGS: VOL I: SPEECH PROCESSING 1; VOL II: SPEECH PROCESSING 2 IND TECHNOL TRACK DESIGN & IMPLEMENTATION OF SIGNAL PROCESSING SYSTEMS NEURALNETWORKS FOR SIGNAL PROCESSING; VOL III: IMAGE & MULTIDIMENSIONAL SIGNAL PROCESSING MULTIMEDIA SIGNAL PROCESSING, 2001, : 441 - 444
[9] ORTHOGONAL TRAINING FOR TEXT-INDEPENDENT SPEAKER VERIFICATION
Zhu, Yingke
Mak, Brian
[J]. 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 6584 - 6588
[10] Text-independent speaker verification in embedded environments
Tydlitat, Borivoj
Navratil, Jiri
Pelecanos, Jason W.
Ramaswamy, Ganesh N.
[J]. 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL IV, PTS 1-3, 2007, : 293 - +

← 1 2 3 4 5 →