使用結構化潛在空間壓縮音頻波形的制作方法

文檔序號：39725798發(fā)布日期：2024-10-22 13:24閱讀：來源：國知局

技術特征：

1.一種由一個或多個計算機執(zhí)行的方法，所述方法包括：

2.根據(jù)權利要求1所述的方法，其中所述第一噪聲參數(shù)集包括第一噪聲波形。

3.根據(jù)權利要求2所述的方法，其中將所述第一噪聲參數(shù)集應用于所述第一初始音頻波形包括：

4.根據(jù)權利要求2所述的方法，其中將所述第一噪聲參數(shù)集應用于所述第一初始音頻波形包括：

5.根據(jù)任一項前述權利要求所述的方法，其中所述目標函數(shù)通過多尺度頻譜重構損失來測量以下之間的所述誤差：(i)所述重構音頻波形，以及(ii)通過將所述第二噪聲參數(shù)集應用于所述第一初始音頻波形而生成的所述音頻波形。

6.根據(jù)任一項前述權利要求所述的方法，其中所述被指定為干凈特征維度的特征維度集與所述被指定為噪聲特征維度的特征維度集不相交。

7.根據(jù)任一項前述權利要求所述的方法，其中所述輸入音頻波形的所述嵌入包括表示所述輸入音頻波形的多個特征矢量，其中每個特征矢量包括：(i)所述被指定為干凈特征維度的特征維度集，以及(ii)所述被指定為噪聲特征維度的特征維度集。

8.根據(jù)任一項前述權利要求所述的方法，其中生成所述混合嵌入包括對所述混合嵌入進行矢量量化。

9.根據(jù)權利要求8所述的方法，其中對所述混合嵌入進行矢量量化包括：

10.根據(jù)任一項前述權利要求所述的方法，其中所述第一初始音頻波形和所述第二初始音頻波形是語音波形或音樂波形。

11.根據(jù)任一項前述權利要求所述的方法，其中所述編碼器神經(jīng)網(wǎng)絡和所述解碼器神經(jīng)網(wǎng)絡具有相應的卷積神經(jīng)網(wǎng)絡架構。

12.根據(jù)任一項前述權利要求所述的方法，還包括：

13.根據(jù)權利要求12所述的方法，其中所述目標函數(shù)測量以下之間的誤差：(i)由所述鑒別器神經(jīng)網(wǎng)絡通過處理所述重構音頻波形而生成的一個或多個中間輸出，以及(ii)由所述鑒別器神經(jīng)網(wǎng)絡通過處理通過將所述第二噪聲參數(shù)集應用于所述第一初始音頻波形而生成的所述音頻波形而生成的一個或多個中間輸出。

14.根據(jù)任一項前述權利要求所述的方法，還包括：

15.根據(jù)權利要求14所述的方法，其中通過將所述第三有噪聲的音頻波形的所述嵌入的所述噪聲特征維度的值設置為默認值來生成所述干凈嵌入包括：

16.根據(jù)任一項前述權利要求所述的方法，還包括：

17.根據(jù)任一項前述權利要求所述的方法，其中確定測量以下之間的誤差的目標函數(shù)的梯度：(i)所述重構音頻波形，以及(ii)通過將所述第二噪聲參數(shù)集應用于所述第一初始音頻波形而生成的音頻波形，包括：

18.根據(jù)任一項前述權利要求所述的方法，其中使用所述梯度來更新所述編碼器神經(jīng)網(wǎng)絡和所述解碼器神經(jīng)網(wǎng)絡的參數(shù)值包括：

19.一種由一個或多個計算機執(zhí)行的方法，所述方法包括：

20.根據(jù)權利要求19所述的方法，還包括，在壓縮所述音頻波形的所述量化表示之前：

21.根據(jù)權利要求19所述的方法，還包括，在壓縮所述音頻波形的所述量化表示之前：

22.根據(jù)權利要求19所述的方法，其中壓縮所述音頻波形的所述量化嵌入包括：

23.根據(jù)權利要求19至22中任一項所述的方法，其中壓縮所述音頻波形的所述量化嵌入包括：

24.一種由一個或多個計算機執(zhí)行的方法，所述方法包括：

25.一種由一個或多個計算機執(zhí)行的方法，所述方法包括：

26.根據(jù)權利要求25所述的方法，其中修改所述音頻波形的所述嵌入的所述噪聲特征維度包括：

27.根據(jù)權利要求25所述的方法，其中修改所述音頻波形的所述嵌入的所述噪聲特征維度包括：

28.一種由一個或多個計算機執(zhí)行的方法，所述方法包括：

29.一種系統(tǒng)，包括：

30.一種或多種非暫時性計算機存儲介質，所述非暫時性計算機存儲介質存儲指令，所述指令在由一個或多個計算機執(zhí)行時，使所述一個或多個計算機執(zhí)行根據(jù)權利要求1至28中任一項所述的相應方法的操作。

技術總結
用于訓練編碼器神經(jīng)網(wǎng)絡和解碼器神經(jīng)網(wǎng)絡的方法、系統(tǒng)和設備，包括編碼在計算機存儲介質上的計算機程序。在一個方面，一種方法包括：獲得第一初始音頻波形和第一有噪聲的音頻波形；獲得第二初始音頻波形和第二有噪聲的音頻波形；使用編碼器神經(jīng)網(wǎng)絡來處理該第一有噪聲的音頻波形和該第二有噪聲的音頻波形；通過連結以下來生成混合嵌入：(i)來自該第一有噪聲的音頻波形的嵌入的干凈特征維度，以及(ii)來自該第二有噪聲的音頻波形的嵌入的噪聲特征維度；使用解碼器神經(jīng)網(wǎng)絡來處理該混合嵌入，以生成重構音頻波形；確定目標函數(shù)的梯度；以及使用梯度來更新該編碼器神經(jīng)網(wǎng)絡和該解碼器神經(jīng)網(wǎng)絡的參數(shù)值。

技術研發(fā)人員：艾哈邁德·歐姆蘭,尼爾·澤格多爾,佐蘭·博爾紹什,費利克斯·得肖蒙格泰,馬爾科·塔利亞薩基
受保護的技術使用者：谷歌有限責任公司
技術研發(fā)日：
技術公布日：2024/10/21

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

使用結構化潛在空間壓縮音頻波形的制作方法