Simultaneous Optimization of Multiple Tree-Based Factor Analyzed HMM for Speech Synthesis

被引：1

作者：

Yoshimura, Takenori ^{[1
]}

Hashimoto, Kei ^{[1
]}

Oura, Keiichiro ^{[1
]}

Nankaku, Yoshihiko ^{[1
]}

Tokuda, Keiichi ^{[1
]}

机构：

[1] Nagoya Inst Technol, Nagoya, Aichi 4668555, Japan

来源：

IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING | 2017年 / 25卷 / 09期

基金：

日本科学技术振兴机构;

关键词：

Decision tree-based context clustering; eigenvoice; factor analysis; HMM-based speech synthesis; HIDDEN MARKOV-MODELS; SPEAKER ADAPTATION; MAXIMUM-LIKELIHOOD; PITCH;

D O I：

10.1109/TASLP.2017.2721219

中图分类号：

O42 [声学];

学科分类号：

070206 ; 082403 ;

摘要：

This paper proposes a novel method to build multiple decision trees as a structure of factor analyzed hidden Markov model for speech synthesis. In the proposed method, the multiple decision trees grow simultaneously rather than sequentially to take into account the relationship between the trees. However, the simultaneous growing is computationally infeasible due to an exponential increase in the number of tree structures to be evaluated. To solve the problem, we further propose two computational complexity reduction algorithms that achieve a significant reduction in the computational time. Experimental results show that the proposed method outperforms the conventional one based on a single decision tree.

引用

页码：1532 / 1541

页数：10

共 50 条

[1] Simultaneous Optimization of Multiple Tree Structures for Factor Analyzed HMM-Based Speech Synthesis
Yoshimura, Takenori
Hashimoto, Kei
Nankaku, Yoshihiko
Tokuda, Keiichi
16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5, 2015, : 1196 - 1200
[2] FACTOR ANALYZED VOICE MODELS FOR HMM-BASED SPEECH SYNTHESIS
Kazumi, Kyosuke
Nankaku, Yoshihiko
Tokuda, Keiichi
2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2010, : 4234 - 4237
[3] Decision Tree-based Clustering with Outlier Detection for HMM-based Speech Synthesis
Oh, Kyung Hwan
Sung, June Sig
Hong, Doo Hwa
Kim, Nam Soo
12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5, 2011, : 108 - +
[4] Tree-Based HMM State Tying for Arabic Continuous Speech Recognition
Azim, Mona A.
Hamid, A. Aziz A.
Badr, Nagwa L.
Tolba, M. F.
PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ADVANCED INTELLIGENT SYSTEMS AND INFORMATICS 2016, 2017, 533 : 96 - 103
[5] Factor Analyzed HMM Topology for Speech Recognition
Ting, Chuan-Wei
Chien, Jen-Tzung
INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5, 2009, : 1407 - 1410
[6] A decision tree-based clustering approach to state definition in an excitation modeling framework for HMM-based speech synthesis
Maia, Ranniery
Toda, Tomoki
Tokuda, Keiichi
Sakai, Shinsuke
Nakamura, Satoshi
INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5, 2009, : 1743 - 1746
[7] Generative factor analyzed HMM for automatic speech recognition
Yao, KS
Paliwal, KK
Lee, TW
SPEECH COMMUNICATION, 2005, 45 (04) : 435 - 454
[8] Extended Decision Tree with OR Relationship for HMM-based Speech Synthesis
Wang, Yang
Tao, Jianhua
Yang, Minghao
Li, Ya
2013 SECOND IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR 2013), 2013, : 225 - 229
[9] Arabic Speech Synthesis based on HMM
Khalil, Krichi Mohamed
Adnan, Cherif
2018 15TH INTERNATIONAL MULTI-CONFERENCE ON SYSTEMS, SIGNALS AND DEVICES (SSD), 2018, : 1091 - 1095
[10] Croatian HMM based speech synthesis
Martincic-Ipsic, S.
Ipsic, I.
ITI 2006: PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY INTERFACES, 2006, : 251 - +

← 1 2 3 4 5 →