午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置與流程

文檔序號(hào):39724202發(fā)布日期:2024-10-22 13:20閱讀:3來(lái)源:國(guó)知局
語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置與流程

本發(fā)明涉及人工智能,尤其涉及一種語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置。


背景技術(shù):

1、自動(dòng)語(yǔ)音識(shí)別,簡(jiǎn)稱語(yǔ)音識(shí)別,是指計(jì)算機(jī)處理器接收到語(yǔ)音信號(hào)并經(jīng)過(guò)計(jì)算后將其轉(zhuǎn)換為符合人類理解的文字信息。這種技術(shù)被廣泛應(yīng)用于手機(jī)語(yǔ)音助手、輸入法軟件、車載導(dǎo)航和各種人工智能穿戴設(shè)備等,具有重要的應(yīng)用價(jià)值。語(yǔ)音中的副語(yǔ)言信息,指的是說(shuō)話人聲紋特征,口音特征等無(wú)關(guān)于語(yǔ)音內(nèi)容的信息,該信息通常會(huì)對(duì)語(yǔ)音識(shí)別任務(wù)會(huì)起到負(fù)面作用。

2、目前有相關(guān)研究表明,副語(yǔ)言信息對(duì)語(yǔ)音識(shí)別任務(wù)具有負(fù)面作用,但是針對(duì)通過(guò)優(yōu)化語(yǔ)音中的副語(yǔ)言信息來(lái)提升語(yǔ)音識(shí)別效果的研究還較少。其中比較典型的研究如mit-ibm沃森人工智能實(shí)驗(yàn)室提出的預(yù)訓(xùn)練框架contentvec,該研究雖然未明確指出語(yǔ)音中存在的副語(yǔ)言信息是影響語(yǔ)音識(shí)別的關(guān)鍵,但是該研究指出,語(yǔ)音信號(hào)中存在的說(shuō)話人特性(副語(yǔ)言信息的一種)會(huì)使得語(yǔ)音識(shí)別效果的下降,并通過(guò)提出基于hubert的預(yù)訓(xùn)練框架,在語(yǔ)音表示學(xué)習(xí)過(guò)程中去除聲學(xué)中的說(shuō)話人信息,以此來(lái)達(dá)到提升語(yǔ)音識(shí)別效果的目的。加利福尼亞大學(xué)伯克利分校聯(lián)合亞馬遜發(fā)表的一項(xiàng)研究提出,拆解語(yǔ)音信號(hào)中的內(nèi)容相關(guān)信息(服務(wù)于內(nèi)容相關(guān)任務(wù),如語(yǔ)音識(shí)別)和內(nèi)容無(wú)關(guān)信息(服務(wù)于內(nèi)容無(wú)關(guān)任務(wù),如聲紋識(shí)別),將內(nèi)容相關(guān)信息用于下游語(yǔ)音識(shí)別任務(wù),以此來(lái)提升語(yǔ)音識(shí)別效果,該研究借鑒了dicyr中的信息拆解方案,通過(guò)設(shè)置梯度反轉(zhuǎn)層來(lái)將單個(gè)混合的信息解耦為兩個(gè)具有區(qū)分性的信息。

3、現(xiàn)有的方案如contentvec需要先用大量的語(yǔ)音數(shù)據(jù)做預(yù)訓(xùn)練,以此得到具有少量說(shuō)話人特征的語(yǔ)音特征表示模型,在此基礎(chǔ)上用語(yǔ)音識(shí)別任務(wù)去微調(diào)模型。該方案只在預(yù)訓(xùn)練過(guò)程中實(shí)施了去除說(shuō)話人信息的操作,在微調(diào)階段卻沒(méi)有相關(guān)的方法,這使得微調(diào)階段訓(xùn)練得到的語(yǔ)音表示中包含的說(shuō)話人信息可能會(huì)增加。

4、而關(guān)于內(nèi)容相關(guān)信息和內(nèi)容無(wú)關(guān)信息拆解的算法,首先,算法中對(duì)這兩種信息的界定不夠明確,導(dǎo)致拆解出的內(nèi)容相關(guān)信息中,依舊包含較多的內(nèi)容無(wú)關(guān)信息,無(wú)法達(dá)到理想的效果;其次,該算法對(duì)語(yǔ)音編碼器的深層特征進(jìn)行解耦,而模型的深層特征往往包含更多內(nèi)容信息,淺層特征包含更多的副語(yǔ)言信息,深層特征的內(nèi)容信息已經(jīng)受到了淺層特征的副語(yǔ)言信息干擾,這使得模型難以從中分離出副語(yǔ)言信息。

5、有鑒于此,亟需改進(jìn)現(xiàn)有的語(yǔ)音識(shí)別模型,以明確用于語(yǔ)音識(shí)別的內(nèi)容信息和副語(yǔ)言信息的界定,使得模型能夠明確地從語(yǔ)音信息中移除副語(yǔ)言信息,以利用提取出的內(nèi)容信息進(jìn)行語(yǔ)音識(shí)別。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置,用以解決現(xiàn)有技術(shù)中無(wú)法準(zhǔn)確從語(yǔ)音信息中提取出內(nèi)容信息的缺陷。

2、第一方面,本發(fā)明提供一種語(yǔ)音識(shí)別模型訓(xùn)練方法,包括:

3、將任一語(yǔ)音樣本輸入至待訓(xùn)練的語(yǔ)音識(shí)別模型;

4、獲取所述語(yǔ)音識(shí)別模型對(duì)語(yǔ)音樣本進(jìn)行識(shí)別過(guò)程中的總損失,以最小化所述總損失為目標(biāo)對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練;

5、所述總損失至少是基于第一損失、第二損失和第三損失確定的;

6、所述語(yǔ)音識(shí)別模型包括語(yǔ)音編碼器、信息解耦模塊和語(yǔ)音解碼器,所述信息解耦模塊包括語(yǔ)音信息編碼單元、語(yǔ)音信息重構(gòu)單元、第一梯度反轉(zhuǎn)單元、第二梯度反轉(zhuǎn)單元、內(nèi)容信息重構(gòu)單元和副語(yǔ)言信息重構(gòu)單元;

7、所述語(yǔ)音編碼器,用于對(duì)輸入的所述語(yǔ)音樣本進(jìn)行特征提取,并將提取的第一語(yǔ)音信息輸入至所述信息解耦模塊;

8、所述語(yǔ)音信息編碼單元,用于將所述第一語(yǔ)音信息編碼為第一內(nèi)容信息和第一副語(yǔ)言信息;所述第一內(nèi)容信息經(jīng)過(guò)所述第一梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述副語(yǔ)言信息重構(gòu)單元,生成第二副語(yǔ)言信息;所述第一副語(yǔ)言信息經(jīng)過(guò)所述第二梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述內(nèi)容信息重構(gòu)單元,生成第二內(nèi)容信息;獲取所述副語(yǔ)言信息重構(gòu)單元生成所述第二副語(yǔ)言信息時(shí)的損失作為所述第一損失,并獲取所述內(nèi)容信息重構(gòu)單元生成所述第二內(nèi)容信息時(shí)的損失作為所述第二損失;

9、獲取所述語(yǔ)音信息重構(gòu)單元將所述第一內(nèi)容信息和所述第一副語(yǔ)言信息重構(gòu)為第二語(yǔ)音信息時(shí)的損失作為所述第三損失。

10、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法,所述語(yǔ)音編碼器和所述信息解耦模塊為多個(gè),由一個(gè)所述語(yǔ)音編碼器和一個(gè)所述信息解耦模塊構(gòu)成一內(nèi)容信息提取層;

11、多個(gè)串聯(lián)的所述內(nèi)容信息提取層的第一層連接所作為輸入層、最后一層作為輸出層;

12、所述輸入層的所述語(yǔ)音編碼器接收輸入的所述第一語(yǔ)音信息;

13、所述輸出層的所述語(yǔ)音信息編碼單元輸出的所述第一內(nèi)容信息輸入至所述語(yǔ)音解碼器。

14、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法,所述總損失是基于所有所述內(nèi)容信息提取層的所述第一損失、所述第二損失和所述第三損失綜合確定的。

15、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法,所述總損失還包括第四損失;

16、所述第四損失是采用以下步驟確定的:

17、利用語(yǔ)音編碼器對(duì)任意兩個(gè)獨(dú)立的語(yǔ)音樣本進(jìn)行特征提取,獲取第三語(yǔ)音信息和第四語(yǔ)音信息;

18、利用所述語(yǔ)音信息編碼單元分別對(duì)所述第三語(yǔ)音信息和所述第四語(yǔ)音信息進(jìn)行編碼,獲取與所述第三語(yǔ)音信息相關(guān)的第三內(nèi)容信息和第三副語(yǔ)言信息以及與所述第四語(yǔ)音信息相關(guān)的第四內(nèi)容信息和第四副語(yǔ)言信息;

19、利用所述語(yǔ)音信息重構(gòu)單元將所述第三內(nèi)容信息和所述第四副語(yǔ)言信息重構(gòu)為第五語(yǔ)音信息后,利用所述語(yǔ)音信息編碼單元對(duì)所述第五語(yǔ)音信息進(jìn)行編碼,得到第五內(nèi)容信息和第五副語(yǔ)言信息;

20、以所述第五內(nèi)容信息與所述第三內(nèi)容信息之間的差距最小、所述第五副語(yǔ)言信息與所述第三副語(yǔ)言信息之間的差距最大且所述第五副語(yǔ)言信息與所述第四副語(yǔ)言信息之間的差距最小為目標(biāo),確定所述第四損失。

21、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法,所述總損失還包括第五損失和第六損失;

22、所述第五損失是基于語(yǔ)音識(shí)別任務(wù)約束確定的;

23、所述第六損失是基于說(shuō)話人識(shí)別任務(wù)約束、情感識(shí)別任務(wù)約束和口音識(shí)別任務(wù)約束中的至少一種確定的。

24、根據(jù)本發(fā)明提供的一種語(yǔ)音識(shí)別模型訓(xùn)練方法,所述語(yǔ)音解碼器用于對(duì)所述語(yǔ)音信息編碼單元輸出的所述第一內(nèi)容信息進(jìn)行解碼,輸出與所述語(yǔ)音樣本對(duì)應(yīng)的文本識(shí)別結(jié)果。

25、第二方面,本發(fā)明還提供一種語(yǔ)音識(shí)別方法,包括:

26、接收待識(shí)別的語(yǔ)音;

27、將所述語(yǔ)音輸入至語(yǔ)音識(shí)別模型,獲取由所述語(yǔ)音識(shí)別模型輸出的識(shí)別文本;

28、所述語(yǔ)音識(shí)別模型是基于第一方面任一項(xiàng)所述的語(yǔ)音識(shí)別模型訓(xùn)練方法對(duì)初始的語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練后得到的。

29、第三方面,本發(fā)明還提供一種語(yǔ)音識(shí)別模型訓(xùn)練裝置,包括:

30、樣本輸入單元,用于將任一語(yǔ)音樣本輸入至待訓(xùn)練的語(yǔ)音識(shí)別模型;

31、訓(xùn)練控制單元,用于獲取所述語(yǔ)音識(shí)別模型對(duì)所述語(yǔ)音樣本進(jìn)行識(shí)別過(guò)程中的總損失,以最小化所述總損失為目標(biāo)對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練;

32、所述總損失至少是基于第一損失、第二損失和第三損失確定的;

33、所述語(yǔ)音識(shí)別模型包括語(yǔ)音編碼器、信息解耦模塊和語(yǔ)音解碼器,所述信息解耦模塊包括語(yǔ)音信息編碼單元、語(yǔ)音信息重構(gòu)單元、第一梯度反轉(zhuǎn)單元、第二梯度反轉(zhuǎn)單元、內(nèi)容信息重構(gòu)單元和副語(yǔ)言信息重構(gòu)單元;

34、所述語(yǔ)音編碼器,用于對(duì)輸入的所述語(yǔ)音樣本進(jìn)行特征提取,并將提取的第一語(yǔ)音信息輸入至所述信息解耦模塊;

35、所述語(yǔ)音信息編碼單元,用于將所述第一語(yǔ)音信息編碼為第一內(nèi)容信息和第一副語(yǔ)言信息;所述第一內(nèi)容信息經(jīng)過(guò)所述第一梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述副語(yǔ)言信息重構(gòu)單元,生成第二副語(yǔ)言信息;所述第一副語(yǔ)言信息經(jīng)過(guò)所述第二梯度反轉(zhuǎn)單元反轉(zhuǎn)傳播至所述內(nèi)容信息重構(gòu)單元,生成第二內(nèi)容信息;獲取所述副語(yǔ)言信息重構(gòu)單元生成所述第二副語(yǔ)言信息時(shí)的損失作為所述第一損失,并獲取所述內(nèi)容信息重構(gòu)單元生成所述第二內(nèi)容信息時(shí)的損失作為所述第二損失;

36、獲取所述語(yǔ)音信息重構(gòu)單元將所述第一內(nèi)容信息和所述第一副語(yǔ)言信息重構(gòu)為第二語(yǔ)音信息時(shí)的損失作為所述第三損失。

37、第四方面,本發(fā)明還提供一種語(yǔ)音識(shí)別裝置,包括:

38、語(yǔ)音接收單元,用于接收將待識(shí)別的語(yǔ)音;

39、語(yǔ)音識(shí)別單元,用于將所述語(yǔ)音輸入至語(yǔ)音識(shí)別模型,獲取由所述語(yǔ)音識(shí)別模型輸出的識(shí)別文本;

40、所述語(yǔ)音識(shí)別模型是基于第一方面任一項(xiàng)所述的語(yǔ)音識(shí)別模型訓(xùn)練方法對(duì)初始的語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練后得到的。

41、第五方面,本發(fā)明提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

42、第六方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

43、第七方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語(yǔ)音識(shí)別模型訓(xùn)練方法或者語(yǔ)音識(shí)別方法。

44、本發(fā)明提供的語(yǔ)音識(shí)別模型訓(xùn)練、語(yǔ)音識(shí)別方法及裝置,將內(nèi)容信息的識(shí)別任務(wù)與副語(yǔ)言信息的移除任務(wù)結(jié)合在一起形成端到端的方法,訓(xùn)練過(guò)程中對(duì)內(nèi)容信息和副語(yǔ)言信息清晰界定,便于模型能夠明確移除副語(yǔ)言信息,進(jìn)而提升語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1