High-quality Voice Conversion Using Spectrogram-Based WaveNet Vocoder

被引：0

作者：

Chen, Kuan ^{[1
]}

Chen, Bo ^{[1
]}

Lai, Jiahao ^{[1
]}

Yu, Kai ^{[1
]}

机构：

[1] Shanghai Jiao Tong Univ, Key Lab Shanghai Educ Commiss Intelligent Interac, Brain Sci & Technol Res Ctr, SpeechLab,Dept Comp Sci & Engn, Shanghai, Peoples R China

来源：

19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6: SPEECH RESEARCH FOR EMERGING MARKETS IN MULTILINGUAL SOCIETIES | 2018年

关键词：

voice conversion; WaveNet vocoder; mel-frequency spectrogram; LSTM-RNN; SYSTEM; TIME;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

Waveform generator is a key component in voice conversion. Recently, WaveNet waveform generator conditioned on the Mel-cepstrum (Mcep) has shown better quality over standard vocoder. In this paper, an enhanced WaveNet model based on spectrogram is proposed to further improve voice conversion performance. Here, Mel-frequency spectrogram is converted from source speaker to target speaker using an LSTMRNN based frame-to-frame feature mapping. To evaluate the performance, the proposed approach is compared to an Mcep based LSTM-RNN voice conversion system. Both STRAIGHT vocoder and Mcep-based WaveNet vocoder are elected to produce the converted speech for Mcep conversion system. The fundamental frequency (F-0) of the converted speech in different systems is analyzed. The naturalness, similarity and intelligibility are evaluated in subjective measures. Results show that the spectrogram based WaveNet waveform generator can achieve better voice conversion quality compared to traditional WaveNet approaches. The Mel-spectrogram based voice conversion can achieve significant improvement in speaker similarity and inherent F-0 conversion.

引用

页码：1993 / 1997

页数：5

共 50 条

[1] Refined WaveNet Vocoder for Variational Autoencoder Based Voice Conversion
Huang, Wen-Chin
Wu, Yi-Chiao
Hwang, Hsin-Te
Tobing, Patrick Lumban
Hayashi, Tomoki
Kobayashi, Kazuhiro
Toda, Tomoki
Tsao, Yu
Wang, Hsin-Min
[J]. 2019 27TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), 2019,
[2] WaveNet Vocoder with Limited Training Data for Voice Conversion
Liu, Li-Juan
Ling, Zhen-Hua
Yuan-Jiang
Ming-Zhou
Dai, Li-Rong
[J]. 19TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2018), VOLS 1-6: SPEECH RESEARCH FOR EMERGING MARKETS IN MULTILINGUAL SOCIETIES, 2018, : 1983 - 1987
[3] ADAPTIVE WAVENET VOCODER FOR RESIDUAL COMPENSATION IN GAN-BASED VOICE CONVERSION
Sisman, Berrak
Zhang, Mingyang
Sakti, Sakriani
Li, Haizhou
Nakamura, Satoshi
[J]. 2018 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2018), 2018, : 282 - 289
[4] AN EVALUATION OF DEEP SPECTRAL MAPPINGS AND WAVENET VOCODER FOR VOICE CONVERSION
Tobing, Patrick Lumban
Hayashi, Tomoki
Wu, Yi-Chiao
Kobayashi, Kazuhiro
Toda, Tomoki
[J]. 2018 IEEE WORKSHOP ON SPOKEN LANGUAGE TECHNOLOGY (SLT 2018), 2018, : 297 - 303
[5] Voice Conversion With CycleRNN-Based Spectral Mapping and Finely Tuned WaveNet Vocoder
Tobing, Patrick Lumban
Wu, Yi-Chiao
Hayashi, Tomoki
Kobayashi, Kazuhiro
Toda, Tomoki
[J]. IEEE ACCESS, 2019, 7 : 171114 - 171125
[6] An evaluation of voice conversion with neural network spectral mapping models and WaveNet vocoder
Tobing, Patrick Lumban
Wu, Yi-Chiao
Hayashi, Tomoki
Kobayashi, Kazuhiro
Toda, Tomoki
[J]. APSIPA TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSING, 2020, 9
[7] Cross-Lingual Voice Conversion using a Cyclic Variational Auto-encoder and a WaveNet Vocoder
Nakatani, Hikaru
Tobing, Patrick Lumban
Takeda, Kazuya
Toda, Tomoki
[J]. 2020 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2020, : 520 - 526
[8] STATISTICAL VOICE CONVERSION BASED ON WAVENET
Niwa, Jumpei
Yoshimura, Takenori
Hashimoto, Kei
Oura, Keiichiro
Nankaku, Yoshihiko
Tokuda, Keiichi
[J]. 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, : 5289 - 5293
[9] VOICE CONVERSION WITH CYCLIC RECURRENT NEURAL NETWORK AND FINE-TUNED WAVENET VOCODER
Tobing, Patrick Lumban
Wu, Yi-Chiao
Hayashi, Tomoki
Kobayashi, Kazuhiro
Toda, Tomoki
[J]. 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, : 6815 - 6819
[10] Non-Parallel Voice Conversion System With WaveNet Vocoder and Collapsed Speech Suppression
Wu, Yi-Chiao
Tobing, Patrick Lumban
Kobayashi, Kazuhiro
Hayashi, Tomoki
Toda, Tomoki
[J]. IEEE ACCESS, 2020, 8 : 62094 - 62106

← 1 2 3 4 5 →