SELF-SUPERVISED LEARNING BASED DOMAIN ADAPTATION FOR ROBUST SPEAKER VERIFICATION

被引：18

作者：

Chen, Zhengyang ^{[1
]}

Wang, Shuai ^{[1
]}

Qian, Yanmin ^{[1
]}

机构：

[1] Shanghai Jiao Tong Univ, AI Inst, MoE Key Lab Artificial Intelligence, SpeechLab,Dept Comp Sci & Engn, Shanghai, Peoples R China

来源：

2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) | 2021年

关键词：

Domain Adaptation; Self-Supervised Learning; Speaker Verification; Contrastive Learning;

D O I：

10.1109/ICASSP39728.2021.9414261

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

Large performance degradation is often observed for speaker verification systems when applied to a new domain dataset. Given an unlabeled target-domain dataset, unsupervised domain adaptation (UDA) methods, which usually leverage adversarial training strategies, are commonly used to bridge the performance gap caused by the domain mismatch. However, such adversarial training strategy only uses the distribution information of target domain data and can not ensure the performance improvement on the target domain. In this paper, we incorporate self-supervised learning strategy to the unsupervised domain adaptation system and proposed a self-supervised learning based domain adaptation approach (SSDA). Compared to the traditional UDA method, the new SSDA training strategy can fully leverage the potential label information from target domain and adapt the speaker discrimination ability from source domain simultaneously. We evaluated the proposed approach on the VoxCeleb (labeled source domain) and CnCeleb (unlabeled target domain) datasets, and the best SSDA system obtains 10.2% Equal Error Rate (EER) on the CnCeleb dataset without using any speaker labels on CnCeleb, which also can achieve the state-of-the-art results on this corpus.

引用

页码：5834 / 5838

页数：5

共 50 条

[41] Self-supervised learning for robust video indexing
Ewerth, Ralph
Freisleben, Bernd
2006 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO - ICME 2006, VOLS 1-5, PROCEEDINGS, 2006, : 1749 - +
[42] LLEDA-Lifelong Self-Supervised Domain Adaptation
Thota, Mamatha
Yi, Dewei
Leontidis, Georgios
KNOWLEDGE-BASED SYSTEMS, 2023, 279
[43] Reinforced Reweighting for Self-supervised Partial Domain Adaptation
Wu K.
Chen S.
Wu M.
Xiang S.
Jin R.
Xu Y.
Li X.
Chen Z.
IEEE Transactions on Artificial Intelligence, 2024, 5 (09): : 1 - 10
[44] SELF-SUPERVISED SPEAKER RECOGNITION WITH LOSS-GATED LEARNING
Tao, Ruijie
Lee, Kong Aik
Das, Rohan Kumar
Hautamaki, Ville
Li, Haizhou
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2022, : 6142 - 6146
[45] AN ITERATIVE FRAMEWORK FOR SELF-SUPERVISED DEEP SPEAKER REPRESENTATION LEARNING
Cai, Danwei
Wang, Weiqing
Li, Ming
2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, : 6728 - 6732
[46] A COMPREHENSIVE STUDY ON SELF-SUPERVISED DISTILLATION FOR SPEAKER REPRESENTATION LEARNING
Chen, Zhengyang
Qian, Yao
Han, Bing
Qian, Yanmin
Zeng, Michael
2022 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, SLT, 2022, : 599 - 604
[47] SELF-SUPERVISED LEARNING FOR AUDIO-VISUAL SPEAKER DIARIZATION
Ding, Yifan
Xu, Yong
Zhang, Shi-Xiong
Cong, Yahuan
Wang, Liqiang
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 4367 - 4371
[48] Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning
Kang, Jingu
Huh, Jaesung
Heo, Hee Soo
Chung, Joon Son
IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, 2022, 16 (06) : 1253 - 1262
[49] SELF-SUPERVISED METRIC LEARNING WITH GRAPH CLUSTERING FOR SPEAKER DIARIZATION
Singh, Prachi
Ganapathy, Sriram
2021 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), 2021, : 90 - 97
[50] Self-supervised domain adaptation for cross-domain fault diagnosis
Lu, Weikai
Fan, Haoyi
Zeng, Kun
Li, Zuoyong
Chen, Jian
INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2022, 37 (12) : 10903 - 10923

← 1 2 3 4 5 →