午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法

文檔序號(hào):39724415發(fā)布日期:2024-10-22 13:21閱讀:3來源:國(guó)知局
一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法

本發(fā)明涉及深度學(xué)習(xí)自然語言處理、信號(hào)處理領(lǐng)域,具體涉及一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法。


背景技術(shù):

0、技術(shù)背景

1、目標(biāo)聲音提取旨在從包含多個(gè)聲音事件的音頻中,提取出用戶需要的聲音事件對(duì)應(yīng)的音頻信號(hào),并抑制用戶不需要的聲音事件對(duì)應(yīng)的音頻信號(hào)。隨著信號(hào)處理技術(shù),特別是深度學(xué)習(xí)技術(shù)的發(fā)展,目標(biāo)聲音提取作為一個(gè)有監(jiān)督學(xué)習(xí)任務(wù)得到了廣泛的探究。一個(gè)實(shí)用的目標(biāo)聲音提取系統(tǒng)需要用戶輸入查詢來指導(dǎo)系統(tǒng)提取想要的音頻。根據(jù)系統(tǒng)需要用戶提供的查詢種類不同,現(xiàn)有的基于查詢的目標(biāo)聲音提取系統(tǒng)主要分為基于標(biāo)簽查詢和基于自然語言查詢兩類系統(tǒng)。

2、由于自然界中的聲音事件是復(fù)雜多變的,有限多個(gè)預(yù)定義的離散標(biāo)簽難以涵蓋眾多的聲音事件,從而限制了基于標(biāo)簽查詢的目標(biāo)聲音提取系統(tǒng)的應(yīng)用場(chǎng)景。與之相對(duì),自然語言查詢靈活多樣,可以應(yīng)對(duì)自然界中復(fù)雜的聲音事件,自然而然地成為了許多研究者著重探討的方向。然而,有監(jiān)督地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)面臨眾多挑戰(zhàn),其中一個(gè)最為突出的問題就是訓(xùn)練這樣的系統(tǒng)需要極為大量的高質(zhì)量音頻-文本數(shù)據(jù)對(duì),這些音頻-文本數(shù)據(jù)對(duì)需要通過人工標(biāo)注的方式進(jìn)行構(gòu)造,標(biāo)注成本極高。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述現(xiàn)有技術(shù)中存在問題,本發(fā)明提出了一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,可以在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。

2、本發(fā)明采用的技術(shù)方案如下:

3、一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,該方法在模型訓(xùn)練時(shí),基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型,自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量,從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。具體步驟包括:

4、步驟1:構(gòu)建離線文本特征緩存:準(zhǔn)備音頻描述文本庫,包含n條音頻描述文本,使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器,分別對(duì)每一條文本提取一個(gè)d維的文本特征向量,從而構(gòu)建一個(gè)n×d維的離線文本特征緩存;

5、步驟2:自監(jiān)督地訓(xùn)練語言查詢目標(biāo)聲音提取系統(tǒng),包括:

6、步驟2.1:構(gòu)建訓(xùn)練音頻,所述訓(xùn)練音頻包含混合音頻和目標(biāo)音頻,具體為:準(zhǔn)備音頻數(shù)據(jù)庫,包含m段音頻,在每一步的訓(xùn)練過程中,任意從音頻數(shù)據(jù)庫中抽取出兩段不同的音頻,將其中的一段視為要提取的目標(biāo)音頻,另一段視為干擾音頻,兩段音頻加權(quán)相加后構(gòu)造信號(hào)干擾比為r的混合音頻。

7、步驟2.2:基于相似性匹配構(gòu)造與目標(biāo)音頻匹配的文本特征向量:使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的音頻編碼器,對(duì)目標(biāo)音頻提取d維的音頻特征向量。將該音頻特征向量視為查詢向量,并將步驟1中構(gòu)建的文本特征緩存視為鍵、值向量。通過查詢向量與鍵向量之間的點(diǎn)積運(yùn)算得到相似度得分,并以相似度得分為權(quán)重,將得分最大的k個(gè)鍵向量對(duì)應(yīng)的值向量進(jìn)行加權(quán)和計(jì)算。加權(quán)和向量經(jīng)過l2歸一化后即可獲得與目標(biāo)音頻匹配的文本特征向量。

8、步驟2.3:訓(xùn)練目標(biāo)聲音提取模型:構(gòu)造深度神經(jīng)網(wǎng)絡(luò)模型,該模型以步驟2.1獲得的混合音頻作為模型輸入,以步驟2.2獲得的文本特征向量作為條件輸入,該模型以文本特征向量為條件,在混合音頻中提取出目標(biāo)音頻?;谔崛∫纛l與步驟2.1中的目標(biāo)音頻的相似度構(gòu)造損失函數(shù),使用梯度下降算法訓(xùn)練模型。

9、步驟3:語言查詢目標(biāo)聲音提取系統(tǒng)推理:用戶輸入任意包含多個(gè)聲音事件的音頻,并輸入待提取音頻事件的自然語言描述,使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器,對(duì)輸入的自然語言進(jìn)行編碼,得到d維的文本特征向量。步驟2.3中訓(xùn)練好的提取模型即可在該特征向量的控制下,提取出輸入音頻中用戶想要提取的目標(biāo)聲音。

10、優(yōu)選的,所述步驟1中,音頻描述文本庫中的文本應(yīng)包含:audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽,wavcaps數(shù)據(jù)集的所有文本標(biāo)注,由語言模型自動(dòng)生成的更多音頻文本描述,文本特征向量的維度d=512。

11、優(yōu)選的,所述步驟2.1中,混合音頻的信號(hào)干擾比r=0db。

12、優(yōu)選的,所述步驟2.2中,選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k=1。

13、本發(fā)明的有益效果是:使用本發(fā)明提供的方法可以在不需要人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)語言查詢目標(biāo)聲音提取系統(tǒng),該系統(tǒng)的性能接近、甚至在部分場(chǎng)景下可以超過使用人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)有監(jiān)督地訓(xùn)練的系統(tǒng),從而大大節(jié)約了該類系統(tǒng)訓(xùn)練時(shí)所需的人工標(biāo)注成本。



技術(shù)特征:

1.一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,該方法在模型訓(xùn)練時(shí),基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型,自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量,從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng),具體步驟包括:

2.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟1中,音頻描述文本庫中的文本應(yīng)包含:audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽,wavcaps數(shù)據(jù)集的所有文本標(biāo)注。

3.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟2.1中,混合音頻的信號(hào)干擾比r=0db。

4.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟2.2中,選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k=1。


技術(shù)總結(jié)
本發(fā)明公開了一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法。該方法可以在不需要人工標(biāo)注的文本?音頻數(shù)據(jù)對(duì)的情況下,訓(xùn)練一個(gè)以自然語言查詢作為條件的目標(biāo)聲音提取系統(tǒng)。具體而言,本發(fā)明基于對(duì)比學(xué)習(xí)的音頻文本預(yù)訓(xùn)練模型,首先使用預(yù)訓(xùn)練模型的文本編碼器對(duì)大量的文本數(shù)據(jù)進(jìn)行編碼,構(gòu)建離線文本特征緩存,之后通過相似性匹配算法,從文本特征緩存中提取并構(gòu)建與目標(biāo)音頻匹配的文本特征,并以此特征作為條件,指導(dǎo)目標(biāo)聲音提取網(wǎng)絡(luò)在包含目標(biāo)音頻的混合音頻中提取出目標(biāo)音頻。本發(fā)明所提方法在多個(gè)數(shù)據(jù)集上的評(píng)估表現(xiàn)優(yōu)異,各項(xiàng)指標(biāo)均接近或者超過有監(jiān)督學(xué)習(xí)的方法,證明本發(fā)明具有較強(qiáng)的實(shí)用價(jià)值。

技術(shù)研發(fā)人員:邵明杰,馬豪,劉琚,彭志遠(yuǎn),李靜
受保護(hù)的技術(shù)使用者:山東大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1