語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置與流程

文檔序號(hào)：39724202發(fā)布日期：2024-10-22 13:20閱讀：3來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置與流程

本發(fā)明涉及人工智能，尤其涉及一種語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置。

背景技術(shù)：

1、自動(dòng)語(yǔ)音識(shí)別，簡(jiǎn)稱語(yǔ)音識(shí)別，是指計(jì)算機(jī)處理器接收到語(yǔ)音信號(hào)并經(jīng)過(guò)計(jì)算后將其轉(zhuǎn)換為符合人類理解的文字信息。這種技術(shù)被廣泛應(yīng)用于手機(jī)語(yǔ)音助手、輸入法軟件、車載導(dǎo)航和各種人工智能穿戴設(shè)備等，具有重要的應(yīng)用價(jià)值。語(yǔ)音中的副語(yǔ)言信息，指的是說(shuō)話人聲紋特征，口音特征等無(wú)關(guān)于語(yǔ)音內(nèi)容的信息，該信息通常會(huì)對(duì)語(yǔ)音識(shí)別任務(wù)會(huì)起到負(fù)面作用。

2、目前有相關(guān)研究表明，副語(yǔ)言信息對(duì)語(yǔ)音識(shí)別任務(wù)具有負(fù)面作用，但是針對(duì)通過(guò)優(yōu)化語(yǔ)音中的副語(yǔ)言信息來(lái)提升語(yǔ)音識(shí)別效果的研究還較少。其中比較典型的研究如mit-ibm沃森人工智能實(shí)驗(yàn)室提出的預(yù)訓(xùn)練框架contentvec，該研究雖然未明確指出語(yǔ)音中存在的副語(yǔ)言信息是影響語(yǔ)音識(shí)別的關(guān)鍵，但是該研究指出，語(yǔ)音信號(hào)中存在的說(shuō)話人特性(副語(yǔ)言信息的一種)會(huì)使得語(yǔ)音識(shí)別效果的下降，并通過(guò)提出基于hubert的預(yù)訓(xùn)練框架，在語(yǔ)音表示學(xué)習(xí)過(guò)程中去除聲學(xué)中的說(shuō)話人信息，以此來(lái)達(dá)到提升語(yǔ)音識(shí)別效果的目的。加利福尼亞大學(xué)伯克利分校聯(lián)合亞馬遜發(fā)表的一項(xiàng)研究提出，拆解語(yǔ)音信號(hào)中的內(nèi)容相關(guān)信息(服務(wù)于內(nèi)容相關(guān)任務(wù)，如語(yǔ)音識(shí)別)和內(nèi)容無(wú)關(guān)信息(服務(wù)于內(nèi)容無(wú)關(guān)任務(wù)，如聲紋識(shí)別)，將內(nèi)容相關(guān)信息用于下游語(yǔ)音識(shí)別任務(wù)，以此來(lái)提升語(yǔ)音識(shí)別效果，該研究借鑒了dicyr中的信息拆解方案，通過(guò)設(shè)置梯度反轉(zhuǎn)層來(lái)將單個(gè)混合的信息解耦為兩個(gè)具有區(qū)分性的信息。

3、現(xiàn)有的方案如contentvec需要先用大量的語(yǔ)音數(shù)據(jù)做預(yù)訓(xùn)練，以此得到具有少量說(shuō)話人特征的語(yǔ)音特征表示模型，在此基礎(chǔ)上用語(yǔ)音識(shí)別任務(wù)去微調(diào)模型。該方案只在預(yù)訓(xùn)練過(guò)程中實(shí)施了去除說(shuō)話人信息的操作，在微調(diào)階段卻沒(méi)有相關(guān)的方法，這使得微調(diào)階段訓(xùn)練得到的語(yǔ)音表示中包含的說(shuō)話人信息可能會(huì)增加。

4、而關(guān)于內(nèi)容相關(guān)信息和內(nèi)容無(wú)關(guān)信息拆解的算法，首先，算法中對(duì)這兩種信息的界定不夠明確，導(dǎo)致拆解出的內(nèi)容相關(guān)信息中，依舊包含較多的內(nèi)容無(wú)關(guān)信息，無(wú)法達(dá)到理想的效果；其次，該算法對(duì)語(yǔ)音編碼器的深層特征進(jìn)行解耦，而模型的深層特征往往包含更多內(nèi)容信息，淺層特征包含更多的副語(yǔ)言信息，深層特征的內(nèi)容信息已經(jīng)受到了淺層特征的副語(yǔ)言信息干擾，這使得模型難以從中分離出副語(yǔ)言信息。

5、有鑒于此，亟需改進(jìn)現(xiàn)有的語(yǔ)音識(shí)別模型，以明確用于語(yǔ)音識(shí)別的內(nèi)容信息和副語(yǔ)言信息的界定，使得模型能夠明確地從語(yǔ)音信息中移除副語(yǔ)言信息，以利用提取出的內(nèi)容信息進(jìn)行語(yǔ)音識(shí)別。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置，用以解決現(xiàn)有技術(shù)中無(wú)法準(zhǔn)確從語(yǔ)音信息中提取出內(nèi)容信息的缺陷。

2、第一方面，本發(fā)明提供一種語(yǔ)音識(shí)別模型訓(xùn)練方法，包括：

3、將任一語(yǔ)音樣本輸入至待訓(xùn)練的語(yǔ)音識(shí)別模型；

4、獲取所述語(yǔ)音識(shí)別模型對(duì)語(yǔ)音樣本進(jìn)行識(shí)別過(guò)程中的總損失，以最小化所述總損失為目標(biāo)對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練；

5、所述總損失至少是基于第一損失、第二損失和第三損失確定的；

6、所述語(yǔ)音識(shí)別模型包括語(yǔ)音編碼器、信息解耦模塊和語(yǔ)音解碼器，所述信息解耦模塊包括語(yǔ)音信息編碼單元、語(yǔ)音信息重構(gòu)單元、第一梯度反轉(zhuǎn)單元、第二梯度反轉(zhuǎn)單元、內(nèi)容信息重構(gòu)單元和副語(yǔ)言信息重構(gòu)單元；

7、所述語(yǔ)音編碼器，用于對(duì)輸入的所述語(yǔ)音樣本進(jìn)行特征提取，并將提取的第一語(yǔ)音信息輸入至所述信息解耦模塊；

8、所述語(yǔ)音信息編碼單元，用于將所述第一語(yǔ)音信息編碼為第一內(nèi)容信息和第一副語(yǔ)言信息；所述第一內(nèi)容信息經(jīng)過(guò)所述第一梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述副語(yǔ)言信息重構(gòu)單元，生成第二副語(yǔ)言信息；所述第一副語(yǔ)言信息經(jīng)過(guò)所述第二梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述內(nèi)容信息重構(gòu)單元，生成第二內(nèi)容信息；獲取所述副語(yǔ)言信息重構(gòu)單元生成所述第二副語(yǔ)言信息時(shí)的損失作為所述第一損失，并獲取所述內(nèi)容信息重構(gòu)單元生成所述第二內(nèi)容信息時(shí)的損失作為所述第二損失；

9、獲取所述語(yǔ)音信息重構(gòu)單元將所述第一內(nèi)容信息和所述第一副語(yǔ)言信息重構(gòu)為第二語(yǔ)音信息時(shí)的損失作為所述第三損失。

10、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法，所述語(yǔ)音編碼器和所述信息解耦模塊為多個(gè)，由一個(gè)所述語(yǔ)音編碼器和一個(gè)所述信息解耦模塊構(gòu)成一內(nèi)容信息提取層；

11、多個(gè)串聯(lián)的所述內(nèi)容信息提取層的第一層連接所作為輸入層、最后一層作為輸出層；

12、所述輸入層的所述語(yǔ)音編碼器接收輸入的所述第一語(yǔ)音信息；

13、所述輸出層的所述語(yǔ)音信息編碼單元輸出的所述第一內(nèi)容信息輸入至所述語(yǔ)音解碼器。

14、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法，所述總損失是基于所有所述內(nèi)容信息提取層的所述第一損失、所述第二損失和所述第三損失綜合確定的。

15、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法，所述總損失還包括第四損失；

16、所述第四損失是采用以下步驟確定的：

17、利用語(yǔ)音編碼器對(duì)任意兩個(gè)獨(dú)立的語(yǔ)音樣本進(jìn)行特征提取，獲取第三語(yǔ)音信息和第四語(yǔ)音信息；

18、利用所述語(yǔ)音信息編碼單元分別對(duì)所述第三語(yǔ)音信息和所述第四語(yǔ)音信息進(jìn)行編碼，獲取與所述第三語(yǔ)音信息相關(guān)的第三內(nèi)容信息和第三副語(yǔ)言信息以及與所述第四語(yǔ)音信息相關(guān)的第四內(nèi)容信息和第四副語(yǔ)言信息；

19、利用所述語(yǔ)音信息重構(gòu)單元將所述第三內(nèi)容信息和所述第四副語(yǔ)言信息重構(gòu)為第五語(yǔ)音信息后，利用所述語(yǔ)音信息編碼單元對(duì)所述第五語(yǔ)音信息進(jìn)行編碼，得到第五內(nèi)容信息和第五副語(yǔ)言信息；

20、以所述第五內(nèi)容信息與所述第三內(nèi)容信息之間的差距最小、所述第五副語(yǔ)言信息與所述第三副語(yǔ)言信息之間的差距最大且所述第五副語(yǔ)言信息與所述第四副語(yǔ)言信息之間的差距最小為目標(biāo)，確定所述第四損失。

21、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法，所述總損失還包括第五損失和第六損失；

22、所述第五損失是基于語(yǔ)音識(shí)別任務(wù)約束確定的；

23、所述第六損失是基于說(shuō)話人識(shí)別任務(wù)約束、情感識(shí)別任務(wù)約束和口音識(shí)別任務(wù)約束中的至少一種確定的。

24、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法，所述語(yǔ)音解碼器用于對(duì)所述語(yǔ)音信息編碼單元輸出的所述第一內(nèi)容信息進(jìn)行解碼，輸出與所述語(yǔ)音樣本對(duì)應(yīng)的文本識(shí)別結(jié)果。

25、第二方面，本發(fā)明還提供一種語(yǔ)音識(shí)別方法，包括：

26、接收待識(shí)別的語(yǔ)音；

27、將所述語(yǔ)音輸入至語(yǔ)音識(shí)別模型，獲取由所述語(yǔ)音識(shí)別模型輸出的識(shí)別文本；

28、所述語(yǔ)音識(shí)別模型是基于第一方面任一項(xiàng)所述的語(yǔ)音識(shí)別模型訓(xùn)練方法對(duì)初始的語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練后得到的。

29、第三方面，本發(fā)明還提供一種語(yǔ)音識(shí)別模型訓(xùn)練裝置，包括：

30、樣本輸入單元，用于將任一語(yǔ)音樣本輸入至待訓(xùn)練的語(yǔ)音識(shí)別模型；

31、訓(xùn)練控制單元，用于獲取所述語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音樣本進(jìn)行識(shí)別過(guò)程中的總損失，以最小化所述總損失為目標(biāo)對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練；

32、所述總損失至少是基于第一損失、第二損失和第三損失確定的；

33、所述語(yǔ)音識(shí)別模型包括語(yǔ)音編碼器、信息解耦模塊和語(yǔ)音解碼器，所述信息解耦模塊包括語(yǔ)音信息編碼單元、語(yǔ)音信息重構(gòu)單元、第一梯度反轉(zhuǎn)單元、第二梯度反轉(zhuǎn)單元、內(nèi)容信息重構(gòu)單元和副語(yǔ)言信息重構(gòu)單元；

34、所述語(yǔ)音編碼器，用于對(duì)輸入的所述語(yǔ)音樣本進(jìn)行特征提取，并將提取的第一語(yǔ)音信息輸入至所述信息解耦模塊；

35、所述語(yǔ)音信息編碼單元，用于將所述第一語(yǔ)音信息編碼為第一內(nèi)容信息和第一副語(yǔ)言信息；所述第一內(nèi)容信息經(jīng)過(guò)所述第一梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述副語(yǔ)言信息重構(gòu)單元，生成第二副語(yǔ)言信息；所述第一副語(yǔ)言信息經(jīng)過(guò)所述第二梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述內(nèi)容信息重構(gòu)單元，生成第二內(nèi)容信息；獲取所述副語(yǔ)言信息重構(gòu)單元生成所述第二副語(yǔ)言信息時(shí)的損失作為所述第一損失，并獲取所述內(nèi)容信息重構(gòu)單元生成所述第二內(nèi)容信息時(shí)的損失作為所述第二損失；

36、獲取所述語(yǔ)音信息重構(gòu)單元將所述第一內(nèi)容信息和所述第一副語(yǔ)言信息重構(gòu)為第二語(yǔ)音信息時(shí)的損失作為所述第三損失。

37、第四方面，本發(fā)明還提供一種語(yǔ)音識(shí)別裝置，包括：

38、語(yǔ)音接收單元，用于接收將待識(shí)別的語(yǔ)音；

39、語(yǔ)音識(shí)別單元，用于將所述語(yǔ)音輸入至語(yǔ)音識(shí)別模型，獲取由所述語(yǔ)音識(shí)別模型輸出的識(shí)別文本；

40、所述語(yǔ)音識(shí)別模型是基于第一方面任一項(xiàng)所述的語(yǔ)音識(shí)別模型訓(xùn)練方法對(duì)初始的語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練后得到的。

41、第五方面，本發(fā)明提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

42、第六方面，本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

43、第七方面，本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

44、本發(fā)明提供的語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置，將內(nèi)容信息的識(shí)別任務(wù)與副語(yǔ)言信息的移除任務(wù)結(jié)合在一起形成端到端的方法，訓(xùn)練過(guò)程中對(duì)內(nèi)容信息和副語(yǔ)言信息清晰界定，便于模型能夠明確移除副語(yǔ)言信息，進(jìn)而提升語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭思宇,余昀錦
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)湖北有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置與流程