語(yǔ)音合成方法和裝置的制造方法

文檔序號(hào)：9766605閱讀：798來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及語(yǔ)音合成技術(shù)領(lǐng)域，尤其設(shè)及一種語(yǔ)音合成方法和裝置。
【背景技術(shù)】
[0002] 現(xiàn)在人們對(duì)于合成語(yǔ)音已經(jīng)不僅僅滿足于其清晰度和可懂度，還要求合成的語(yǔ)音具有更好的自然度和表現(xiàn)力。在自然語(yǔ)音中，基頻是影響自然度和表現(xiàn)力的主要因素，因此基頻建模的精度直接影響了合成語(yǔ)音的自然度和表現(xiàn)力。
[0003] 在傳統(tǒng)的語(yǔ)音合成系統(tǒng)中，基頻建模使用多空間概率分布的隱馬爾可夫模型 (multi-space probability dist;r;Lbution HMM,MSD-HMM)的建模方法，該方法可W很好的針對(duì)狀態(tài)級(jí)、聲韻母級(jí)的基頻輪廓(或走勢(shì))建模，但是很難學(xué)習(xí)出詞、短語(yǔ)或者句子等更高層級(jí)的基頻趨勢(shì)，使得合成語(yǔ)音的節(jié)奏感、表現(xiàn)力不足。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0005] 為此，本發(fā)明的一個(gè)目的在于提出一種語(yǔ)音合成方法，該方法可W提高合成語(yǔ)音的表現(xiàn)效果。
[0006] 本發(fā)明的另一個(gè)目的在于提出一種語(yǔ)音合成裝置。
[0007] 為達(dá)到上述目的，本發(fā)明第一方面實(shí)施例提出的語(yǔ)音合成方法，包括:對(duì)要合成的文本進(jìn)行文本特征提取，獲取上下文特征信息;獲取預(yù)先生成的模型，所述模型是根據(jù)訓(xùn)練樣本的上下文特征信息和變換后的聲學(xué)參數(shù)進(jìn)行訓(xùn)練后生成的，所述變換后的聲學(xué)參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù);根據(jù)所述模型，確定與所述上下文特征信息對(duì)應(yīng)的模型輸出參數(shù)，所述模型輸出參數(shù)包括:多個(gè)韻律層級(jí)的基頻參數(shù);對(duì)所述多個(gè)韻律層級(jí)的基頻參數(shù) 進(jìn)行基頻重構(gòu);根據(jù)基頻重構(gòu)后的參數(shù)和所述模型輸出參數(shù)中的其他參數(shù)得到合成語(yǔ)音。 [000引可選的，還包括:對(duì)訓(xùn)練樣本的文本進(jìn)行文本特征提取，獲取訓(xùn)練樣本的上下文特征信息;對(duì)訓(xùn)練樣本的語(yǔ)音進(jìn)行聲學(xué)特征提取，得到訓(xùn)練樣本的聲學(xué)參數(shù);對(duì)所述聲學(xué)參數(shù) 進(jìn)行基頻的韻律層級(jí)變換，使得變換后的聲學(xué)參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù);根據(jù)訓(xùn) 練樣本的上下文特征信息和變換后的聲學(xué)參數(shù)，訓(xùn)練得到所述模型。
[0009] 可選的，所述基頻的韻律層級(jí)變換包括:基頻小波變換。
[0010] 可選的，所述模型是神經(jīng)網(wǎng)絡(luò)模型，W及，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)采用的目標(biāo)函數(shù) 包括:設(shè)置的不同參數(shù)的權(quán)重。
[0011] 可選的，所述變換后的聲學(xué)參數(shù)還包括:譜參數(shù)。
[0012] 可選的，所述根據(jù)所述模型輸出參數(shù)進(jìn)行基頻重構(gòu)，包括:獲取每個(gè)層級(jí)的基頻參數(shù)對(duì)應(yīng)的權(quán)重;根據(jù)所述權(quán)重對(duì)每個(gè)層級(jí)的基頻參數(shù)進(jìn)行加權(quán)求和運(yùn)算。
[0013] 本發(fā)明第一方面實(shí)施例提出的語(yǔ)音合成方法，通過(guò)根據(jù)多個(gè)韻律層級(jí)的基頻參數(shù) 進(jìn)行建模，可W將單一維度的基頻建模擴(kuò)展到多個(gè)韻律層級(jí)的多維的基頻建模，提高基頻建模效果，從而提高語(yǔ)音合成效果。
[0014] 為達(dá)到上述目的，本發(fā)明第二方面實(shí)施例提出的語(yǔ)音合成裝置，包括:第一獲取模塊，用于對(duì)要合成的文本進(jìn)行文本特征提取，獲取上下文特征信息；第二獲取模塊，用于獲取預(yù)先生成的模型，所述模型是根據(jù)訓(xùn)練樣本的上下文特征信息和變換后的聲學(xué)參數(shù)進(jìn)行訓(xùn)練后生成的，所述變換后的聲學(xué)參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù);確定模塊，用于根據(jù) 所述模型，確定與所述上下文特征信息對(duì)應(yīng)的模型輸出參數(shù)，所述模型輸出參數(shù)包括:多個(gè) 韻律層級(jí)的基頻參數(shù);基頻重構(gòu)模塊，用于對(duì)所述多個(gè)韻律層級(jí)的基頻參數(shù)進(jìn)行基頻重構(gòu)；合成模塊，用于根據(jù)基頻重構(gòu)后的參數(shù)和所述模型輸出參數(shù)中的其他參數(shù)得到合成語(yǔ)音。
[0015] 可選的，還包括：訓(xùn)練模塊，用于對(duì)訓(xùn)練樣本的文本進(jìn)行文本特征提取，獲取訓(xùn)練樣本的上下文特征信息;對(duì)訓(xùn)練樣本的語(yǔ)音進(jìn)行聲學(xué)特征提取，得到訓(xùn)練樣本的聲學(xué)參數(shù)；對(duì)所述聲學(xué)參數(shù)進(jìn)行基頻的韻律層級(jí)變換，使得變換后的聲學(xué)參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù);根據(jù)訓(xùn)練樣本的上下文特征信息和變換后的聲學(xué)參數(shù)，訓(xùn)練得到所述模型。
[0016] 可選的，所述模型是神經(jīng)網(wǎng)絡(luò)模型，W及，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)采用的目標(biāo)函數(shù) 包括:設(shè)置的不同參數(shù)的權(quán)重。
[0017] 可選的，所述基頻重構(gòu)模塊具體用于:獲取設(shè)置的每個(gè)韻律層級(jí)的基頻參數(shù)對(duì)應(yīng) 的權(quán)重;根據(jù)所述權(quán)重對(duì)每個(gè)韻律層級(jí)的基頻參數(shù)進(jìn)行加權(quán)求和運(yùn)算。
[0018] 本發(fā)明第二方面實(shí)施例提出的語(yǔ)音合成裝置，通過(guò)根據(jù)多個(gè)韻律層級(jí)的基頻參數(shù) 進(jìn)行建模，可W將單一維度的基頻建模擴(kuò)展到多個(gè)韻律層級(jí)的多維的基頻建模，提高基頻建模效果，從而提高語(yǔ)音合成效果。
[0019] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0020] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中：
[0021] 圖1是本發(fā)明一實(shí)施例提出的語(yǔ)音合成方法的流程示意圖；
[0022] 圖2是本發(fā)明另一實(shí)施例提出的語(yǔ)音合成方法的流程示意圖；
[0023] 圖3是本發(fā)明另一實(shí)施例提出的語(yǔ)音合成裝置的結(jié)構(gòu)示意圖；
[0024] 圖4是本發(fā)明另一實(shí)施例提出的語(yǔ)音合成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025] 下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。相反，本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0026] 圖1是本發(fā)明一實(shí)施例提出的語(yǔ)音合成方法的流程示意圖。本實(shí)施例的流程W合成過(guò)程為例。參見(jiàn)圖1，該方法包括：
[0027] Sll:對(duì)要合成的文本進(jìn)行文本特征提取，獲取上下文特征信息。
[0028] 文本特征提取的流程例如包括:預(yù)處理、分詞、詞性標(biāo)注、注音、韻律層級(jí)預(yù)測(cè)。
[0029] S12:獲取預(yù)先生成的模型，所述模型是根據(jù)訓(xùn)練樣本的上下文特征信息和變換后的聲學(xué)參數(shù)進(jìn)行訓(xùn)練后生成的，所述變換后的聲學(xué)參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù)。
[0030] 模型可W在訓(xùn)練過(guò)程中訓(xùn)練生成，具體生成流程可W參見(jiàn)后續(xù)描述。
[0031] S11-S12并無(wú)時(shí)序限定關(guān)系。
[0032] S13:根據(jù)所述模型，確定與所述上下文特征信息對(duì)應(yīng)的模型輸出參數(shù)，所述模型輸出參數(shù)包括:多個(gè)韻律層級(jí)的基頻參數(shù)。
[0033] 其中，模型中可W記錄上下文特征信息與變換后的聲學(xué)參數(shù)之間的映射關(guān)系，通過(guò)該映射關(guān)系，可W確定與上下文特征信息對(duì)應(yīng)的變換后的聲學(xué)參數(shù)，將對(duì)應(yīng)的變換后的聲學(xué)參數(shù)作為模型輸出參數(shù)。
[0034] 變換后的聲學(xué)參數(shù)例如包括：多個(gè)韻律層級(jí)的基頻參數(shù)，另外，還可W包括譜參數(shù)。
[0035] S14:對(duì)所述多個(gè)韻律層級(jí)的基頻參數(shù)進(jìn)行基頻重構(gòu)。
[0036] 例如，模型輸出參數(shù)包括多個(gè)韻律層級(jí)的基頻參數(shù)和譜參數(shù)，需要對(duì)其中的多個(gè) 韻律層級(jí)的基頻參數(shù)進(jìn)行基頻重構(gòu)。
[0037] 通常重構(gòu)方案是將多個(gè)分量進(jìn)行求和運(yùn)算。而本實(shí)施例中，可W預(yù)先設(shè)置每個(gè)分量(韻律層級(jí)的基頻參數(shù)）的權(quán)重，再對(duì)所有分量進(jìn)行加權(quán)求和運(yùn)算，從而可W在基頻重構(gòu) 時(shí)強(qiáng)調(diào)需要強(qiáng)調(diào)的韻律層級(jí)，得到需要的合成語(yǔ)音的表現(xiàn)效果。
[0038] S15:根據(jù)基頻重構(gòu)后的參數(shù)和所述模型輸出參數(shù)中的其他參數(shù)得到合成語(yǔ)音。
[0039] 其中，經(jīng)過(guò)基頻重構(gòu)可W將多維的基頻參數(shù)合成為一維的基頻參數(shù)，之后可W將譜參數(shù)和一維的基頻參數(shù)送入聲碼器中進(jìn)行語(yǔ)音合成，得到要合成的文本對(duì)應(yīng)的合成語(yǔ) 音。
[0040] 本實(shí)施例中，通過(guò)根據(jù)多個(gè)韻律層級(jí)的基頻參數(shù)進(jìn)行建模，可W將單一維度的基頻建模擴(kuò)展到多個(gè)韻律層級(jí)的多維的基頻建模，提高基頻建模效果，從而提高語(yǔ)音合成效果。
[0041] 圖2是本發(fā)明另一實(shí)施例提出的語(yǔ)音合成方法的流程示意圖。本實(shí)施例的流程包括訓(xùn)練過(guò)程和合成過(guò)程。參

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3