The X-Lance Speaker Diarization System for the Conversational Short-phrase Speaker Diarization Challenge 2022

被引：0

作者：

Liu, Tao ^{[1
]}

Xiang, Xu ^{[2
]}

Chen, Zhengyang ^{[1
]}

Han, Bing ^{[1
]}

Yu, Kai ^{[1
]}

Qian, Yanmin ^{[1
]}

机构：

[1] Shanghai Jiao Tong Univ, AI Inst, MoE Key Lab Artificial Intelligence, X LANCE Lab, Shanghai, Peoples R China

[2] AISpeech Ltd, Suzhou, Peoples R China

来源：

2022 13TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP) | 2022年

基金：

中国国家自然科学基金;

关键词：

speaker diarization; conversational; short-phrase;

D O I：

10.1109/ISCSLP57327.2022.10037955

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

This paper describes X-Lance Speaker Diarization System submitted to the Conversational Short-phrase Speaker Diarization Challenge. The system outputs the ensemble results of the four modules: self-attentive-based VAD, uniform segmentation, ECAPA-TDNN-based embedding extractor, and spectral clustering. We evaluated our system on the Conversational Short-phrase Speaker Diarization (CSSD) dataset, which is based on MagicData-RAMC and contains plenty of conversational short-phrase segments. Besides being different from other diarization challenges, the challenge proposes a metric called Conversational Diarization Error Rate (CDER), which focuses on evaluating short segments. In this paper, we will analyze this metric and conduct extensive experiments. Finally, our system achieves CDER of 13.2% and 8.0% in the CSSD_dev and unseen CSSD eval set, respectively.

引用

页码：498 / 501

页数：4

共 50 条

[31] An experimental review of speaker diarization methods with application to two-speaker conversational telephone speech recordings
Serafini, Luca
Cornell, Samuele
Morrone, Giovanni
Zovato, Enrico
Brutti, Alessio
Squartini, Stefano
[J]. COMPUTER SPEECH AND LANGUAGE, 2023, 82
[32] An Analysis of Speaker Diarization Fusion Methods For The First DIHARD Challenge
Yin, Bing
Du, Jun
Sun, Lei
Zhang, Xueyang
He, Shan
Ling, Zhenhua
Hu, Guoping
Guo, Wu
[J]. 2018 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2018, : 1473 - 1477
[33] The SAIL Speaker Diarization System for Analysis of Spontaneous Meetings
Han, Kyu J.
Georgiou, Panayiotis G.
Narayanan, Shrikanth S.
[J]. 2008 IEEE 10TH WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING, VOLS 1 AND 2, 2008, : 970 - 975
[34] The ICSI RT-09 Speaker Diarization System
Friedland, Gerald
Janin, Adam
Imseng, David
Anguera Miro, Xavier
Gottlieb, Luke
Huijbregts, Marijn
Knox, Mary Tai
Vinyals, Oriol
[J]. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2012, 20 (02): : 371 - 381
[35] CONVOLUTIONAL NEURAL NETWORK FOR SPEAKER CHANGE DETECTION IN TELEPHONE SPEAKER DIARIZATION SYSTEM
Hruz, Marek
Zajic, Zbynek
[J]. 2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2017, : 4945 - 4949
[36] Post-processing techniques for a speaker diarization system
Tavarez, David
Navas, Eva
Erro, Daniel
Saratxaga, Ibon
Hernaez, Inma
[J]. PROCESAMIENTO DEL LENGUAJE NATURAL, 2012, (49): : 109 - 115
[37] Speaker diarization:: Towards a more robust and portable system
El Khoury, Elie
Senac, Christine
Andre-Obrecht, Regine
[J]. 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL IV, PTS 1-3, 2007, : 489 - +
[38] A DOA based speaker diarization system for real meetings
Araki, Shoko
Fujimoto, Masakiyo
Ishizuka, Kentaro
Sawada, Hiroshi
Makino, Shoji
[J]. 2008 HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS, 2008, : 30 - 33
[39] Progress in the AMIDA speaker diarization system for meeting data
van Leeuwen, David A.
Konecny, Matej
[J]. MULTIMODAL TECHNOLOGIES FOR PERCEPTION OF HUMANS, 2008, 4625 : 475 - 483
[40] SPHEREDIAR: AN EFFECTIVE SPEAKER DIARIZATION SYSTEM FOR MEETING DATA
Kaseva, Tuomas
Rouhe, Aku
Kurimo, Mikko
[J]. 2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU 2019), 2019, : 373 - 380

← 1 2 3 4 5 →