午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

使用結(jié)構(gòu)化潛在空間壓縮音頻波形的制作方法

文檔序號:39725798發(fā)布日期:2024-10-22 13:24閱讀:8來源:國知局
使用結(jié)構(gòu)化潛在空間壓縮音頻波形的制作方法


背景技術(shù):

1、本說明書涉及使用機(jī)器學(xué)習(xí)模型來處理數(shù)據(jù)。

2、機(jī)器學(xué)習(xí)模型接收輸入并基于接收到的輸入來生成輸出,例如預(yù)測輸出。一些機(jī)器學(xué)習(xí)模型是參數(shù)模型,并且基于接收到的輸入并基于模型的參數(shù)的值來生成輸出。

3、一些機(jī)器學(xué)習(xí)模型是深度模型,深度模型采用多層模型來為接收到的輸入生成輸出。例如,深度神經(jīng)網(wǎng)絡(luò)是一種深度機(jī)器學(xué)習(xí)模型,該深度機(jī)器學(xué)習(xí)模型包括輸出層和一個或多個隱藏層,一個或多個隱藏層各自將非線性變換應(yīng)用于接收到的輸入以生成輸出。


技術(shù)實現(xiàn)思路

1、本說明書總體上描述了一種在一個或多個位置中的一個或多個計算機(jī)上實現(xiàn)為計算機(jī)程序用于聯(lián)合地訓(xùn)練編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)。

2、根據(jù)第一方面,提供了一種由一個或多個計算機(jī)執(zhí)行的方法,該方法包括:獲得第一初始音頻波形和第一有噪聲的音頻波形,其中該第一有噪聲的音頻波形是通過將第一噪聲參數(shù)集應(yīng)用于該第一初始音頻波形而生成的;獲得第二初始音頻波形和第二有噪聲的音頻波形,其中該第二有噪聲的音頻波形是通過將第二噪聲參數(shù)集應(yīng)用于該第二初始音頻波形而生成的;以及使用編碼器神經(jīng)網(wǎng)絡(luò)來處理該第一有噪聲的音頻波形和該第二有噪聲的音頻波形。編碼器神經(jīng)網(wǎng)絡(luò)被配置為處理輸入音頻波形以生成輸入音頻波形的嵌入。輸入音頻波形的嵌入包括多個特征維度,其中特征維度包括:(i)被指定為干凈特征維度的特征維度集,以及(ii)被指定為噪聲特征維度的特征維度集。

3、該方法還包括:通過連結(jié)以下來生成混合嵌入:(i)來自第一有噪聲的音頻波形的嵌入的干凈特征維度,以及(ii)來自第二有噪聲的音頻波形的嵌入的噪聲特征維度;使用解碼器神經(jīng)網(wǎng)絡(luò)來處理該混合嵌入,以生成重構(gòu)音頻波形;確定目標(biāo)函數(shù)的梯度,該目標(biāo)函數(shù)測量以下之間的誤差:(i)該重構(gòu)音頻波形,以及(ii)通過將第二噪聲參數(shù)集應(yīng)用于第一初始音頻波形而生成的音頻波形;以及使用梯度來更新編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的參數(shù)值。

4、在一些實現(xiàn)方式中,第一噪聲參數(shù)集包括第一噪聲波形。

5、在一些實現(xiàn)方式中,將第一噪聲參數(shù)集應(yīng)用于第一初始音頻波形包括:將第一噪聲波形加到第一初始音頻波形。

6、在一些實現(xiàn)方式中,將第一噪聲參數(shù)集應(yīng)用于第一初始音頻波形包括:將第一噪聲波形與第一初始音頻波形進(jìn)行卷積。

7、在一些實現(xiàn)方式中,目標(biāo)函數(shù)通過多尺度頻譜重構(gòu)損失來測量以下之間的誤差:(i)重構(gòu)音頻波形,以及(ii)通過將第二噪聲參數(shù)集應(yīng)用于第一初始音頻波形而生成的音頻波形。

8、在一些實現(xiàn)方式中,被指定為干凈特征維度的特征維度集與被指定為噪聲特征維度的特征維度集不相交。

9、在一些實現(xiàn)方式中,輸入音頻波形的嵌入包括表示輸入音頻波形的多個特征矢量,其中每個特征矢量包括:(i)被指定為干凈特征維度的特征維度集,以及(ii)被指定為噪聲特征維度的特征維度集。

10、在一些實現(xiàn)方式中,生成混合嵌入包括對混合嵌入進(jìn)行矢量量化。

11、在一些實現(xiàn)方式中,對混合嵌入進(jìn)行矢量量化包括:使用第一矢量量化器來對混合嵌入的干凈特征維度進(jìn)行矢量量化;以及使用第二矢量量化器來對混合嵌入的噪聲特征維度進(jìn)行矢量量化。

12、在一些實現(xiàn)方式中,第一初始音頻波形和第二初始音頻波形是語音波形或音樂波形。

13、在一些實現(xiàn)方式中,編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)具有相應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。

14、在一些實現(xiàn)方式中,該方法還包括:

15、在一些實現(xiàn)方式中,使用鑒別器神經(jīng)網(wǎng)絡(luò)來處理從重構(gòu)音頻波形導(dǎo)出的數(shù)據(jù),以生成一個或多個鑒別器分?jǐn)?shù)的集,其中每個鑒別器分?jǐn)?shù)表征重構(gòu)音頻波形是使用編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)來生成的估計可能性,其中目標(biāo)函數(shù)還包括取決于由鑒別器神經(jīng)網(wǎng)絡(luò)生成的鑒別器分?jǐn)?shù)的對抗性損失。

16、在一些實現(xiàn)方式中,目標(biāo)函數(shù)測量以下之間的誤差:(i)由鑒別器神經(jīng)網(wǎng)絡(luò)通過處理重構(gòu)音頻波形而生成的一個或多個中間輸出,以及(ii)由鑒別器神經(jīng)網(wǎng)絡(luò)通過處理通過將第二噪聲參數(shù)集應(yīng)用于第一初始音頻波形而生成的音頻波形而生成的一個或多個中間輸出。

17、在一些實現(xiàn)方式中,該方法還包括:獲得第三初始音頻波形和第三有噪聲的音頻波形,其中該第三有噪聲的音頻波形是通過將第三噪聲參數(shù)集應(yīng)用于該第三初始音頻波形而生成;使用編碼器神經(jīng)網(wǎng)絡(luò)來處理該第三有噪聲的音頻波形,以生成該第三有噪聲的音頻波形的嵌入;通過將該第三有噪聲的音頻波形的該嵌入的噪聲特征維度的值設(shè)置為默認(rèn)值來生成干凈嵌入;使用解碼器神經(jīng)網(wǎng)絡(luò)來處理該干凈嵌入,以生成重構(gòu)音頻波形;確定目標(biāo)函數(shù)的梯度,該目標(biāo)函數(shù)測量以下之間的誤差:(i)該重構(gòu)音頻波形,以及(ii)該第三初始音頻波形;以及使用梯度來更新編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的參數(shù)值。

18、在一些實現(xiàn)方式中,通過將第三有噪聲的音頻波形的嵌入的噪聲特征維度的值設(shè)置為默認(rèn)值來生成干凈嵌入包括:將第三有噪聲的音頻波形的嵌入的噪聲特征維度的值設(shè)置為零。

19、在一些實現(xiàn)方式中,該方法還包括:獲得第四音頻波形;使用編碼器神經(jīng)網(wǎng)絡(luò)來處理該第四音頻波形,以生成該第四音頻波形的嵌入;處理該第四音頻波形的該嵌入,以生成重構(gòu)音頻波形;確定目標(biāo)函數(shù)的梯度,該目標(biāo)函數(shù)測量以下之間的誤差:(i)該重構(gòu)音頻波形,以及(ii)該第四音頻波形;以及使用梯度來更新編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的參數(shù)值。

20、在一些實現(xiàn)方式中,確定測量以下之間的誤差的目標(biāo)函數(shù)的梯度:(i)重構(gòu)音頻波形,以及(ii)通過將第二噪聲參數(shù)集應(yīng)用于第一初始音頻波形而生成的音頻波形,包括:將該目標(biāo)函數(shù)的梯度反向傳播通過解碼器神經(jīng)網(wǎng)絡(luò)并且到編碼器神經(jīng)網(wǎng)絡(luò)中。

21、在一些實現(xiàn)方式中,使用梯度來更新編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的參數(shù)值包括:根據(jù)梯度下降優(yōu)化技術(shù)使用梯度來更新編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)的參數(shù)值。

22、根據(jù)第二方面,提供了一種由一個或多個計算機(jī)執(zhí)行的方法,該方法包括:獲得音頻波形;使用已經(jīng)根據(jù)任一前述方面的相應(yīng)方法進(jìn)行訓(xùn)練的編碼器神經(jīng)網(wǎng)絡(luò)來處理該音頻波形,以生成該音頻波形的嵌入;對該音頻波形的該嵌入進(jìn)行矢量量化;以及壓縮該音頻波形的量化嵌入。

23、在一些實現(xiàn)方式中,該方法還包括:在壓縮音頻波形的量化表示之前:移除音頻波形的嵌入的噪聲特征維度。

24、在一些實現(xiàn)方式中,該方法還包括:在壓縮音頻波形的量化表示之前:縮放音頻波形的嵌入的噪聲特征維度。

25、在一些實現(xiàn)方式中,壓縮音頻波形的量化嵌入包括:以比音頻波形的量化嵌入的噪聲特征維度更高的比特率來壓縮音頻波形的量化嵌入的干凈特征維度。

26、在一些實現(xiàn)方式中,壓縮音頻波形的量化嵌入包括:使用熵編碼技術(shù)來壓縮音頻波形的量化嵌入。

27、根據(jù)第三方面,提供了一種由一個或多個計算機(jī)執(zhí)行的方法,該方法包括:接收音頻波形的由根據(jù)任一前述方面的相應(yīng)方法生成的壓縮的量化嵌入;解壓縮該音頻波形的該壓縮的量化嵌入;以及使用已經(jīng)根據(jù)任一前述方面的相應(yīng)方法進(jìn)行訓(xùn)練的解碼器神經(jīng)網(wǎng)絡(luò)來處理該音頻波形的該量化嵌入,以生成該音頻波形的重構(gòu)。

28、根據(jù)第四方面,提供了一種由一個或多個計算機(jī)執(zhí)行的方法,該方法包括:獲得音頻波形;使用編碼器神經(jīng)網(wǎng)絡(luò)來處理該音頻波形,以生成該音頻波形的嵌入,其中該嵌入包括:(i)被指定為表示該音頻波形中的初始音頻信號的干凈特征維度的特征維度集,以及(ii)被指定為表示該音頻波形中的有噪聲的音頻信號的噪聲特征維度的特征維度集;修改該音頻波形的該嵌入的噪聲特征維度;在修改該音頻波形的該嵌入的噪聲特征維度之后,對該音頻波形的該嵌入進(jìn)行矢量量化;以及壓縮該音頻波形的量化嵌入。

29、在一些實現(xiàn)方式中,修改音頻波形的嵌入的噪聲特征維度包括:移除音頻波形的嵌入的噪聲特征維度。

30、在一些實現(xiàn)方式中,修改音頻波形的嵌入的噪聲特征維度包括:縮放音頻波形的嵌入的噪聲特征維度。

31、根據(jù)第五方面,提供了一種由一個或多個計算機(jī)執(zhí)行的方法,該方法包括:獲得音頻波形的壓縮的量化嵌入;解壓縮該音頻波形的該壓縮的量化嵌入,其中該音頻波形的該量化嵌入包括:(i)被指定為表示該音頻波形中的初始音頻信號的干凈特征維度的矢量量化特征維度集,以及(ii)被指定為表示該音頻波形中的有噪聲的音頻信號的噪聲特征維度的矢量量化特征維度集;以及使用解碼器神經(jīng)網(wǎng)絡(luò)來處理該音頻波形的該量化嵌入,以生成該音頻波形的重構(gòu)。

32、根據(jù)第六方面,提供了一種系統(tǒng),包括:一個或多個計算機(jī);以及一個或多個存儲裝置,其通信地耦合到一個或多個計算機(jī),其中一個或多個存儲裝置存儲指令,指令在由一個或多個計算機(jī)執(zhí)行時,使一個或多個計算機(jī)執(zhí)行根據(jù)任一前述方面的方法的操作。

33、根據(jù)第七方面,提供了一種或多種非暫時性計算機(jī)存儲介質(zhì),存儲指令,指令在由一個或多個計算機(jī)執(zhí)行時,使一個或多個計算機(jī)執(zhí)行根據(jù)任一前述方面的方法的操作。

34、可在特定實施例中實現(xiàn)本說明書中描述的主題,以便實現(xiàn)以下優(yōu)點中的一個或多個優(yōu)點。

35、在本說明書中描述的訓(xùn)練系統(tǒng)可訓(xùn)練編碼器神經(jīng)網(wǎng)絡(luò),以在結(jié)構(gòu)化潛在空間(即,包括“干凈”特征維度集和“噪聲”特征維度集的潛在空間)中生成音頻波形的嵌入。音頻波形的嵌入的干凈特征維度可表示包括在音頻波形中的干凈音頻信號,即,音頻波形中的已經(jīng)移除噪聲(例如,背景噪聲或混響效應(yīng))的一部分。音頻波形的嵌入的噪聲特征維度可表示包括在音頻波形中的有噪聲的音頻信號,即,音頻波形的表示噪聲的一部分。因此,結(jié)構(gòu)化潛在空間的特征維度是可解釋的、解開的,并且與音頻波形的語義上有意義的屬性相關(guān)。因此,訓(xùn)練系統(tǒng)提供能夠?qū)?shù)字音頻信號進(jìn)行去噪的編碼器神經(jīng)網(wǎng)絡(luò)。

36、訓(xùn)練系統(tǒng)可使用無監(jiān)督學(xué)習(xí)技術(shù)(即,不需要用語義特征來對輸入音頻信號加標(biāo)簽,例如通過手動加標(biāo)簽)來訓(xùn)練編碼器神經(jīng)網(wǎng)絡(luò)以及解碼器神經(jīng)網(wǎng)絡(luò)。相反,訓(xùn)練系統(tǒng)可在通過將噪聲參數(shù)應(yīng)用于初始音頻波形以自動方式生成的訓(xùn)練示例上訓(xùn)練編碼器神經(jīng)網(wǎng)絡(luò)和解碼器神經(jīng)網(wǎng)絡(luò)。訓(xùn)練系統(tǒng)因此能夠更有效率地使用存儲器資源,例如,例如如果訓(xùn)練系統(tǒng)是使用監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練則存儲手動標(biāo)簽原本所需的存儲器資源。

37、一旦經(jīng)過訓(xùn)練,編碼器神經(jīng)網(wǎng)絡(luò)可在壓縮音頻波形的壓縮系統(tǒng)中實現(xiàn),并且解碼器神經(jīng)網(wǎng)絡(luò)可在解壓縮音頻波形的解壓縮系統(tǒng)中實現(xiàn)。結(jié)構(gòu)化潛在空間能夠使能更有效率地存儲壓縮音頻波形(例如,通過減少存儲壓縮音頻波形所需的存儲器的量)并且更有效率地傳輸壓縮音頻波形(例如,通過減少通過數(shù)據(jù)通信網(wǎng)絡(luò)傳輸壓縮音頻波形所需的帶寬的量)。例如,壓縮系統(tǒng)可移除音頻波形的噪聲特征維度作為壓縮音頻波形的一部分,或者壓縮系統(tǒng)可以比音頻波形的干凈特征維度更低的比特率來壓縮音頻波形的噪聲特征維度。

38、在以下附圖和說明書中闡述了本說明書的主題的一個或多個實施例的細(xì)節(jié)。根據(jù)所述描述、附圖和權(quán)利要求書,本主題的其他特征、方面和優(yōu)點將變得顯而易見。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1