Emotional Speech Synthesis for Multi-Speaker Emotional Dataset Using WaveNet Vocoder

被引：0

作者：

Choi, Heejin ^{[1
]}

Park, Sangjun ^{[1
]}

Park, Jinuk ^{[1
]}

Hahn, Minsoo ^{[1
]}

机构：

[1] Korea Adv Inst Sci & Technol, Daejeon, South Korea

来源：

2019 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS (ICCE) | 2019年

关键词：

D O I：

暂无

中图分类号：

TP3 [计算技术、计算机技术];

学科分类号：

0812 ;

摘要：

This paper studies the methods for emotional speech synthesis using a neural vocoder. For a neural vocoder, WaveNet is used, which generates waveforms from mel spectrograms. We propose two networks, i.e., deep convolutional neural network (CNN)-based text-to-speech (TTS) system and emotional converter, and deep CNN architecture is designed as to utilize long-term context information. The first network estimates neutral mel spectrograms using linguistic features, and the second network converts neutral mel spectrograms to emotional mel spectrograms. Experimental results on a TTS system and emotional TTS system, showed that the proposed systems are indeed a promising approach.

引用

页数：2

共 50 条

[1] An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications
Ryu, Se-Hui
Cho, Hee
Lee, Ju-Hyun
Hong, Ki-Hyung
[J]. JOURNAL OF THE ACOUSTICAL SOCIETY OF KOREA, 2021, 40 (05): : 523 - 529
[2] Multi-speaker Emotional Text-to-speech Synthesizer
Cho, Sungjae
Lee, Soo-Young
[J]. INTERSPEECH 2021, 2021, : 2337 - 2338
[3] MULTI-SPEAKER EMOTIONAL SPEECH SYNTHESIS WITH FINE-GRAINED PROSODY MODELING
Lu, Chunhui
Wen, Xue
Liu, Ruolan
Chen, Xiao
[J]. 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021), 2021, : 5729 - 5733
[4] MULTI-SPEAKER EMOTIONAL ACOUSTIC MODELING FOR CNN-BASED SPEECH SYNTHESIS
Choi, Heejin
Park, Sangjun
Park, Jinuk
Hahn, Minsoo
[J]. 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2019, : 6950 - 6954
[5] Wasserstein GAN and Waveform Loss-Based Acoustic Model Training for Multi-Speaker Text-to-Speech Synthecis Systems Using a WaveNet Vocoder
Zhao, Yi
Takaki, Shinji
Luong, Hieu-Thi
Yamagishi, Junichi
Saito, Daisuke
Minematsu, Nobuaki
[J]. IEEE ACCESS, 2018, 6 : 60478 - 60488
[6] AN INVESTIGATION OF MULTI-SPEAKER TRAINING FORWAVENET VOCODER
Hayashi, Tomoki
Tamamori, Akira
Kobayashi, Kazuhiro
Takeda, Kazuya
Toda, Tomoki
[J]. 2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU), 2017, : 712 - 718
[7] Speech Synthesis Using WaveNet Vocoder Based on Periodic/Aperiodic Decomposition
Fujimoto, Takato
Yoshimura, Takenori
Hashimoto, Kei
Oura, Keiichiro
Nankaku, Yoshihiko
Tokuda, Keiichi
[J]. 2018 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC), 2018, : 644 - 648
[8] Speech-Like Emotional Sound Generation Using WaveNet
Matsumoto, Kento
Hara, Sunao
Abe, Masanobu
[J]. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, 2022, E105D (09) : 1581 - 1589
[9] Phoneme Duration Modeling Using Speech Rhythm-Based Speaker Embeddings for Multi-Speaker Speech Synthesis
Fujita, Kenichi
Ando, Atsushi
Ijima, Yusuke
[J]. INTERSPEECH 2021, 2021, : 3141 - 3145
[10] MULTI-SPEAKER AND MULTI-DOMAIN EMOTIONAL VOICE CONVERSION USING FACTORIZED HIERARCHICAL VARIATIONAL AUTOENCODER
Elgaar, Mohamed
Park, Jungbae
Lee, Sang Wan
[J]. 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2020, : 7769 - 7773

← 1 2 3 4 5 →