一種基于VITS的實時語音轉(zhuǎn)換方法與裝置

文檔序號：39726976發(fā)布日期：2024-10-22 13:27閱讀：7來源：國知局

本發(fā)明涉及語音轉(zhuǎn)換，尤其涉及一種基于vits的實時語音轉(zhuǎn)換方法與裝置。

背景技術(shù)：

1、語音轉(zhuǎn)換(vc)是一項旨在修改說話人信息的語音特征的任務，例如說話人的身份、情感和口音，同時保留語音的內(nèi)容信息。隨著對語音轉(zhuǎn)換領(lǐng)域的研究不斷深入，該領(lǐng)域的技術(shù)正在迅速發(fā)展。從最初的基于統(tǒng)計建模的方法，到如今的基于深度學習技術(shù)的方法。這種技術(shù)的進步對語音在現(xiàn)實世界中的多種應用產(chǎn)生了促進作用，并使用戶受益。例如語音合成，語音身份隱私的保護，說話人識別，以及個性化語音助手等。

2、隨著科技進步的驅(qū)動，語音轉(zhuǎn)換技術(shù)逐漸受到廣泛關(guān)注。雖然當前的研究已能夠提供高品質(zhì)的語音轉(zhuǎn)換，但實時語音轉(zhuǎn)換的能力仍顯不足。

3、隨著深度學習和神經(jīng)網(wǎng)絡的廣泛應用，語音轉(zhuǎn)換模型變得越來越復雜，從而導致了語音轉(zhuǎn)換速度問題的凸顯。特別是在實時通信和語音助手等場景中，用戶對于快速、即時的語音轉(zhuǎn)換效果有了更高的期待，提高語音的轉(zhuǎn)換速度已然成為了研究者們面臨的重要任務。

4、語音轉(zhuǎn)換技術(shù)的進步已經(jīng)在人們的日常生活和工作中帶來了顯著的影響，盡管面臨著多項挑戰(zhàn)，但隨著深度學習和神經(jīng)網(wǎng)絡等技術(shù)的不斷進步，對于改善語音轉(zhuǎn)換技術(shù)的理解和能力也在不斷提升。隨著語音技術(shù)的不斷研究和創(chuàng)新，未來的研究人員能夠進一步增強語音轉(zhuǎn)換技術(shù)的效果和性能，為用戶帶來更加定制化、自然以及多元化的語音體驗。

5、針對語音轉(zhuǎn)換技術(shù)，前人的語音轉(zhuǎn)換研究已經(jīng)可以實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換，并且在語音相似度和自然度都得到了很大提升。

6、在語音轉(zhuǎn)換領(lǐng)域研究的早期階段，前人提出了許多基于頻譜轉(zhuǎn)換的方法。其中以基于高斯混合模型(gmm)的統(tǒng)計方法得到了廣泛使用。前人在基于非平行語音轉(zhuǎn)換的研究中，生成對抗網(wǎng)絡(gan)和變分自編碼器(vae)在語音轉(zhuǎn)換的方法展現(xiàn)了優(yōu)異的性能。特別是cyclegan-vc(它是一種基于循環(huán)一致性對抗網(wǎng)絡架構(gòu)的語音轉(zhuǎn)換模型)使用門控卷積神經(jīng)網(wǎng)絡捕獲語音的上下文信息和層次結(jié)構(gòu)，并且通過引入身份映射損失來轉(zhuǎn)換說話人的身份特征，使用循環(huán)一致性損失訓練生成器生成具有目標語音說話人身份特征的轉(zhuǎn)換語音。隨著研究的進一步深入，研究者們開始探索對one-shot(任意對任意)語音轉(zhuǎn)換的實際研究?；趘ae框架的autovc(自動變聲器)，使用語音解耦的方法分離語音中的內(nèi)容信息和說話人信息，實現(xiàn)了one-shot語音轉(zhuǎn)換。

7、多數(shù)方法通過語音解耦實現(xiàn)one-shot語音轉(zhuǎn)換，即分離出語音的內(nèi)容信息和說話人信息合成語音。根據(jù)vc提取語音內(nèi)容信息的方法，可以分為基于文本的vc和非基于文本vc?；谖谋镜膙c方法通常使用自動語音識別(asr)模型提取音素后驗圖(ppg)特征作為語音的內(nèi)容表示。基于非文本的vc方法，如信息瓶頸、矢量化和實例歸一化等。

8、基于文本的語音轉(zhuǎn)換方法的發(fā)展促進了使用語音解耦的方法實現(xiàn)高質(zhì)量語音轉(zhuǎn)換的發(fā)展。如grad-tts(它是一種高質(zhì)量的文本到語音轉(zhuǎn)換模型)，fastspeech(它是一種快速高質(zhì)量語音合成模型)等tts模型(文本轉(zhuǎn)語音模型)，能夠合成自然的語音，已經(jīng)在vc領(lǐng)域上廣泛應用。這些tts模型涉及兩個階段：在第一階段提取內(nèi)容和說話人信息生成聲學特征，在第二階段使用預訓練聲碼器將聲學特征轉(zhuǎn)換為語音波形。由于聲碼器和轉(zhuǎn)換模型是單獨訓練的，導致轉(zhuǎn)換模型預測的聲學特征與聲碼器在訓練期間使用的聲學特征之間存在差異性，導致特征失配，從而降低重構(gòu)波形的質(zhì)量。vits是一個單階段的文字到語音(tts)的語音合成模型，使用條件變分編碼器聯(lián)合訓練轉(zhuǎn)換模型和聲碼器，通過這種方式減少了特征失配，提高了轉(zhuǎn)換語音的質(zhì)量。一些基于vits的語音轉(zhuǎn)換模型通過引入大規(guī)模預訓練的自監(jiān)督學習(ssl)取得了很好的效果，如hubert(它是一種自監(jiān)督學習的語音信號處理模型)、whisper(它是一種多語言語音識別模型)等。hubert能夠捕獲語音信息中的長期依賴性，從而理解語音信號中的上下文信息?？梢院芎玫奶崛≌Z音內(nèi)容信息。而whisper提取的語音內(nèi)容包含口音信息，展現(xiàn)了優(yōu)秀的多語言能力。

9、freevc(它是無文本一次性語音轉(zhuǎn)換系統(tǒng))基于vits架構(gòu)，使用wavlm(它是一種通用語音預訓練模型)提取語音的ssl(語音自監(jiān)督學習)特征，精準設(shè)計瓶頸結(jié)構(gòu)實現(xiàn)了高效的one-shot語音轉(zhuǎn)換。而quickvc也是基于vits架構(gòu)，引入傅里葉逆變換解碼器，可以多對多的實現(xiàn)實時轉(zhuǎn)換。

10、然而，以上各類方案的缺陷在于：基于高斯混合模型(gmm)的統(tǒng)計方法無法捕捉語音轉(zhuǎn)換中的非線性關(guān)系，嚴重影響轉(zhuǎn)換效果?；谏蓪咕W(wǎng)絡(gan)的方法學習的是不同說話人之間的映射，該方法限制了其在不同說話人轉(zhuǎn)換場景下的應用。autovc受到了語音解耦效果的限制，并且性能很大程度上依賴于訓練數(shù)據(jù)的質(zhì)量和多樣性，導致其轉(zhuǎn)換效果不佳?；谖谋镜膙c方法依賴于文本標注。而基于非文本的vc方法與基于文本的方法相比性能較差?；趘its的語音轉(zhuǎn)換方法freevc轉(zhuǎn)換速度的限制，導致無法實現(xiàn)實時轉(zhuǎn)換。而quickvc受限于只能進行多對多的轉(zhuǎn)換，無法實現(xiàn)任意對任意的轉(zhuǎn)換，并且合成效果較差。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是提供一種基于vits的實時語音轉(zhuǎn)換方法與裝置，具有出色的語音自然度和與說話人高度相似的特性，并且能夠語音轉(zhuǎn)換速度較快，能夠滿足實時性需求。

2、本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的：

3、一種基于vits的實時語音轉(zhuǎn)換方法，包括：

4、收集語音數(shù)據(jù)集并進行預處理；

5、構(gòu)建基于vits的實時語音轉(zhuǎn)換模型，包括：先驗編碼器、說話人編碼器、后驗編碼器與神經(jīng)解碼器；

6、使用預處理后的語音數(shù)據(jù)集對所述基于vits的實時語音轉(zhuǎn)換模型進行模型，包括：將預處理后的語音數(shù)據(jù)集終端語音信息作為源語音與目標語音，并從目標語音中提取梅爾頻譜圖與線性譜；先驗編碼器以源語音作為輸入，提取出語音內(nèi)容特征，并由此建模語音特征的先驗分布；說話人編碼器以目標語音的梅爾頻譜圖作為輸入，提取出說話人特征；后驗編碼器以目標語音的線性譜作為輸入，建模語音特征的后驗分布，并以說話人特征為條件采樣出語音特征；神經(jīng)解碼器以語音特征為輸入，以說話人特征為條件，輸出合成語音；將神經(jīng)解碼器看作生成器，計算生成器總損失，包括：結(jié)合合成語音的梅爾頻譜圖與目標語音的梅爾頻譜圖之間的差異計算的重構(gòu)損失，以及結(jié)合語音特征的先驗分布與后驗分布的差異計算的kl損失；同時，引入鑒別器對合成語音的類別進行鑒別，并計算鑒別器損失；結(jié)合所述生成器總損失與鑒別器損失構(gòu)建訓練損失，并以此訓練所述基于vits的實時語音轉(zhuǎn)換模型；

7、訓練完畢后移除后驗編碼器，輸入源語音與目標語音，源語音經(jīng)先驗編碼器采樣出語音特征，目標語音經(jīng)說話人編碼器提取出說話人特征，語音特征與說話特征經(jīng)過逆變換處理后，經(jīng)神經(jīng)解碼器輸出轉(zhuǎn)換后的語音。

8、一種基于vits的實時語音轉(zhuǎn)換裝置，用于實現(xiàn)前述的方法，該裝置包括：

9、數(shù)據(jù)收集及預處理單元，用于收集語音數(shù)據(jù)集并進行預處理；

10、模型構(gòu)建單元，用于構(gòu)建基于vits的實時語音轉(zhuǎn)換模型，包括：先驗編碼器、說話人編碼器、后驗編碼器與神經(jīng)解碼器；

11、模型訓練單元，用于使用預處理后的語音數(shù)據(jù)集對所述基于vits的實時語音轉(zhuǎn)換模型進行模型，包括：將預處理后的語音數(shù)據(jù)集終端語音信息作為源語音與目標語音，并從目標語音中提取梅爾頻譜圖與線性譜；先驗編碼器以源語音作為輸入，提取出語音內(nèi)容特征，并由此建模語音特征的先驗分布；說話人編碼器以目標語音的梅爾頻譜圖作為輸入，提取出說話人特征；后驗編碼器以目標語音的線性譜作為輸入，建模語音特征的后驗分布，并以說話人特征為條件采樣出語音特征；神經(jīng)解碼器以語音特征為輸入，以說話人特征為條件，輸出合成語音；將神經(jīng)解碼器看作生成器，計算生成器總損失，包括：結(jié)合合成語音的梅爾頻譜圖與目標語音的梅爾頻譜圖之間的差異計算的重構(gòu)損失，以及結(jié)合語音特征的先驗分布與后驗分布的差異計算的kl損失；同時，引入鑒別器對合成語音的類別進行鑒別，并計算鑒別器損失；結(jié)合所述生成器總損失與鑒別器損失構(gòu)建訓練損失，并以此訓練所述基于vits的實時語音轉(zhuǎn)換模型；

12、實時語音轉(zhuǎn)換單元，用于訓練完畢后移除后驗編碼器，輸入源語音與目標語音，源語音經(jīng)先驗編碼器采樣出語音特征，目標語音經(jīng)說話人編碼器提取出說話人特征，語音特征與說話特征經(jīng)過逆變換處理后，經(jīng)神經(jīng)解碼器輸出轉(zhuǎn)換后的語音。

13、由上述本發(fā)明提供的技術(shù)方案可以看出，基于vits的端到端實時語音轉(zhuǎn)換技術(shù)，實現(xiàn)任意對任意的語音轉(zhuǎn)換，具有重要的意義和價值，并且是一種一階段的語音轉(zhuǎn)換方案，通過端到端的訓練方式實現(xiàn)了語音轉(zhuǎn)換，相較于傳統(tǒng)的兩階段模型，本發(fā)明消除了聲學特征匹配的差異性，從而提高了轉(zhuǎn)換效果。同時，為了實現(xiàn)任意對任意的語音轉(zhuǎn)換，引入說話人編碼器，還引入神經(jīng)解碼器以提高語音轉(zhuǎn)換的速度，能夠滿足實時性需求；此外，還通過實驗驗證了本發(fā)明在轉(zhuǎn)換速度和語音轉(zhuǎn)換效果方面的性能。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹丹陽,張澤益,張金元,高磊
技術(shù)所有人：北方工業(yè)大學
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于VITS的實時語音轉(zhuǎn)換方法與裝置