一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法

文檔序號(hào)：39724415發(fā)布日期：2024-10-22 13:21閱讀：3來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及深度學(xué)習(xí)自然語言處理、信號(hào)處理領(lǐng)域，具體涉及一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法。

背景技術(shù)：

0、技術(shù)背景

1、目標(biāo)聲音提取旨在從包含多個(gè)聲音事件的音頻中，提取出用戶需要的聲音事件對(duì)應(yīng)的音頻信號(hào)，并抑制用戶不需要的聲音事件對(duì)應(yīng)的音頻信號(hào)。隨著信號(hào)處理技術(shù)，特別是深度學(xué)習(xí)技術(shù)的發(fā)展，目標(biāo)聲音提取作為一個(gè)有監(jiān)督學(xué)習(xí)任務(wù)得到了廣泛的探究。一個(gè)實(shí)用的目標(biāo)聲音提取系統(tǒng)需要用戶輸入查詢來指導(dǎo)系統(tǒng)提取想要的音頻。根據(jù)系統(tǒng)需要用戶提供的查詢種類不同，現(xiàn)有的基于查詢的目標(biāo)聲音提取系統(tǒng)主要分為基于標(biāo)簽查詢和基于自然語言查詢兩類系統(tǒng)。

2、由于自然界中的聲音事件是復(fù)雜多變的，有限多個(gè)預(yù)定義的離散標(biāo)簽難以涵蓋眾多的聲音事件，從而限制了基于標(biāo)簽查詢的目標(biāo)聲音提取系統(tǒng)的應(yīng)用場(chǎng)景。與之相對(duì)，自然語言查詢靈活多樣，可以應(yīng)對(duì)自然界中復(fù)雜的聲音事件，自然而然地成為了許多研究者著重探討的方向。然而，有監(jiān)督地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)面臨眾多挑戰(zhàn)，其中一個(gè)最為突出的問題就是訓(xùn)練這樣的系統(tǒng)需要極為大量的高質(zhì)量音頻-文本數(shù)據(jù)對(duì)，這些音頻-文本數(shù)據(jù)對(duì)需要通過人工標(biāo)注的方式進(jìn)行構(gòu)造，標(biāo)注成本極高。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述現(xiàn)有技術(shù)中存在問題，本發(fā)明提出了一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，可以在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下，有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。

2、本發(fā)明采用的技術(shù)方案如下：

3、一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，該方法在模型訓(xùn)練時(shí)，基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型，自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量，從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下，有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。具體步驟包括：

4、步驟1：構(gòu)建離線文本特征緩存：準(zhǔn)備音頻描述文本庫，包含n條音頻描述文本，使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器，分別對(duì)每一條文本提取一個(gè)d維的文本特征向量，從而構(gòu)建一個(gè)n×d維的離線文本特征緩存；

5、步驟2：自監(jiān)督地訓(xùn)練語言查詢目標(biāo)聲音提取系統(tǒng)，包括：

6、步驟2.1：構(gòu)建訓(xùn)練音頻，所述訓(xùn)練音頻包含混合音頻和目標(biāo)音頻，具體為：準(zhǔn)備音頻數(shù)據(jù)庫，包含m段音頻，在每一步的訓(xùn)練過程中，任意從音頻數(shù)據(jù)庫中抽取出兩段不同的音頻，將其中的一段視為要提取的目標(biāo)音頻，另一段視為干擾音頻，兩段音頻加權(quán)相加后構(gòu)造信號(hào)干擾比為r的混合音頻。

7、步驟2.2：基于相似性匹配構(gòu)造與目標(biāo)音頻匹配的文本特征向量：使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的音頻編碼器，對(duì)目標(biāo)音頻提取d維的音頻特征向量。將該音頻特征向量視為查詢向量，并將步驟1中構(gòu)建的文本特征緩存視為鍵、值向量。通過查詢向量與鍵向量之間的點(diǎn)積運(yùn)算得到相似度得分，并以相似度得分為權(quán)重，將得分最大的k個(gè)鍵向量對(duì)應(yīng)的值向量進(jìn)行加權(quán)和計(jì)算。加權(quán)和向量經(jīng)過l2歸一化后即可獲得與目標(biāo)音頻匹配的文本特征向量。

8、步驟2.3：訓(xùn)練目標(biāo)聲音提取模型：構(gòu)造深度神經(jīng)網(wǎng)絡(luò)模型，該模型以步驟2.1獲得的混合音頻作為模型輸入，以步驟2.2獲得的文本特征向量作為條件輸入，該模型以文本特征向量為條件，在混合音頻中提取出目標(biāo)音頻?；谔崛∫纛l與步驟2.1中的目標(biāo)音頻的相似度構(gòu)造損失函數(shù)，使用梯度下降算法訓(xùn)練模型。

9、步驟3：語言查詢目標(biāo)聲音提取系統(tǒng)推理：用戶輸入任意包含多個(gè)聲音事件的音頻，并輸入待提取音頻事件的自然語言描述，使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器，對(duì)輸入的自然語言進(jìn)行編碼，得到d維的文本特征向量。步驟2.3中訓(xùn)練好的提取模型即可在該特征向量的控制下，提取出輸入音頻中用戶想要提取的目標(biāo)聲音。

10、優(yōu)選的，所述步驟1中，音頻描述文本庫中的文本應(yīng)包含：audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽，wavcaps數(shù)據(jù)集的所有文本標(biāo)注，由語言模型自動(dòng)生成的更多音頻文本描述，文本特征向量的維度d＝512。

11、優(yōu)選的，所述步驟2.1中，混合音頻的信號(hào)干擾比r＝0db。

12、優(yōu)選的，所述步驟2.2中，選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k＝1。

13、本發(fā)明的有益效果是：使用本發(fā)明提供的方法可以在不需要人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)的情況下，有效地訓(xùn)練一個(gè)語言查詢目標(biāo)聲音提取系統(tǒng)，該系統(tǒng)的性能接近、甚至在部分場(chǎng)景下可以超過使用人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)有監(jiān)督地訓(xùn)練的系統(tǒng)，從而大大節(jié)約了該類系統(tǒng)訓(xùn)練時(shí)所需的人工標(biāo)注成本。

技術(shù)特征：

1.一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，該方法在模型訓(xùn)練時(shí)，基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型，自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量，從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下，訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)，具體步驟包括：

2.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，其特征在于：所述步驟1中，音頻描述文本庫中的文本應(yīng)包含：audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽，wavcaps數(shù)據(jù)集的所有文本標(biāo)注。

3.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，其特征在于：所述步驟2.1中，混合音頻的信號(hào)干擾比r＝0db。

4.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法，其特征在于：所述步驟2.2中，選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k＝1。

技術(shù)總結(jié)
本發(fā)明公開了一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法。該方法可以在不需要人工標(biāo)注的文本?音頻數(shù)據(jù)對(duì)的情況下，訓(xùn)練一個(gè)以自然語言查詢作為條件的目標(biāo)聲音提取系統(tǒng)。具體而言，本發(fā)明基于對(duì)比學(xué)習(xí)的音頻文本預(yù)訓(xùn)練模型，首先使用預(yù)訓(xùn)練模型的文本編碼器對(duì)大量的文本數(shù)據(jù)進(jìn)行編碼，構(gòu)建離線文本特征緩存，之后通過相似性匹配算法，從文本特征緩存中提取并構(gòu)建與目標(biāo)音頻匹配的文本特征，并以此特征作為條件，指導(dǎo)目標(biāo)聲音提取網(wǎng)絡(luò)在包含目標(biāo)音頻的混合音頻中提取出目標(biāo)音頻。本發(fā)明所提方法在多個(gè)數(shù)據(jù)集上的評(píng)估表現(xiàn)優(yōu)異，各項(xiàng)指標(biāo)均接近或者超過有監(jiān)督學(xué)習(xí)的方法，證明本發(fā)明具有較強(qiáng)的實(shí)用價(jià)值。

技術(shù)研發(fā)人員：邵明杰,馬豪,劉琚,彭志遠(yuǎn),李靜
受保護(hù)的技術(shù)使用者：山東大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邵明杰,馬豪,劉琚,彭志遠(yuǎn),李靜
技術(shù)所有人：山東大學(xué)
我是此專利的發(fā)明人

上一篇：礦用挖掘機(jī)提升鋼絲繩提升力測(cè)量裝置及其方法與流程
上一篇：一種多功能化智能手環(huán)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法