一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法

文檔序號(hào)：39729575發(fā)布日期：2024-10-22 13:34閱讀：8來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音情感識(shí)別技術(shù)，特別是涉及一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。

背景技術(shù)：

1、在人工智能快速發(fā)展的背景下，語音情感識(shí)別（speech?emotion?recognition，ser）已經(jīng)成為一項(xiàng)重要研究方向。尤其在人機(jī)交互中，先進(jìn)的情感識(shí)別技術(shù)不僅能提高系統(tǒng)的智能化，還能改善用戶體驗(yàn)。此外，語音情感識(shí)別在心理健康分析、客戶服務(wù)等多個(gè)應(yīng)用場(chǎng)景均展現(xiàn)出巨大潛力。

2、語音情感的傳遞與理解是一個(gè)非線性動(dòng)態(tài)多層面交互的復(fù)雜過程，語音情感的細(xì)微差異無法單靠語音或文本進(jìn)行全面展示。在交流過程中，人類通過多維信息來準(zhǔn)確地傳達(dá)自己的感情狀態(tài)，例如語音中的語調(diào)、語速和文本中的詞匯選擇、句式結(jié)構(gòu)。當(dāng)前，語音情感識(shí)別研究逐步轉(zhuǎn)向多模態(tài)模型，通過集成語音、文本等多種感知模態(tài)，多層次、多角度捕捉人類語音情感的多維屬性，克服單模態(tài)語音情感識(shí)別技術(shù)受限于片面信息源，容易收到外部因素干擾和個(gè)體表達(dá)方式差異的影響。

3、跨模態(tài)?transformer?在音頻和文本的多模態(tài)信息融合中展現(xiàn)了強(qiáng)大的潛力。通過自注意力機(jī)制，跨模態(tài)?transformer?能夠有效地捕捉和建模音頻和文本之間的復(fù)雜關(guān)系和相互依賴性。例如，audiobert和speechbert等模型在音頻和文本融合任務(wù)中取得了顯著進(jìn)展。這些模型利用?transformer?的自注意力機(jī)制，分別處理音頻和文本數(shù)據(jù)，并通過交叉注意力層將兩種模態(tài)的信息融合在一起，從而生成聯(lián)合表征。這些聯(lián)合表征能夠使模型更好地理解和處理多模態(tài)數(shù)據(jù)，提高在語音識(shí)別、語音翻譯和情感分析等任務(wù)中的性能。此外，li?et?al.提出的?vl-bert?模型通過在大規(guī)模多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，使語言和音頻等多種模態(tài)的表征對(duì)齊，進(jìn)一步提升了多模態(tài)任務(wù)的表現(xiàn)。

4、掩碼自編碼器（mae）在文本和音頻領(lǐng)域的自監(jiān)督學(xué)習(xí)中發(fā)揮了重要作用。其核心思想是掩蓋部分輸入數(shù)據(jù)，并訓(xùn)練模型重建這些缺失部分，從而學(xué)習(xí)到有效的表征。在文本領(lǐng)域，bert掩蓋部分輸入詞匯，并訓(xùn)練模型預(yù)測(cè)這些掩碼詞匯，從而獲得魯棒的語言表征，顯著提升了各種自然語言處理任務(wù)的性能，如問答、文本分類和命名實(shí)體識(shí)別等。在音頻領(lǐng)域，掩碼自編碼器也被用來處理語音數(shù)據(jù)。例如，tera模型通過掩蓋音頻幀并訓(xùn)練模型重建這些幀，學(xué)習(xí)到豐富的音頻表征，該方法在語音識(shí)別等任務(wù)中表現(xiàn)優(yōu)異。掩碼自編碼器不僅在單模態(tài)下表現(xiàn)出色，還可以與其他技術(shù)結(jié)合使用，能夠進(jìn)一步增強(qiáng)表示學(xué)習(xí)的質(zhì)量。利用了掩碼自編碼器的重建能力和對(duì)比學(xué)習(xí)的判別能力，從而在下游任務(wù)中實(shí)現(xiàn)更優(yōu)的性能。

5、目前，多模態(tài)語音情感識(shí)別面臨的主要挑戰(zhàn)在于不同模態(tài)（語音和文本）的時(shí)間序列特性和表現(xiàn)方式存在差異，導(dǎo)致數(shù)據(jù)融合高度復(fù)雜。因此需要設(shè)計(jì)和優(yōu)化數(shù)據(jù)融合策略，使這些異質(zhì)信息流有機(jī)結(jié)合，協(xié)同發(fā)揮作用，確保系統(tǒng)在語音情感分析方面的精確性與靈敏度。現(xiàn)有研究?jī)?nèi)容如：mustaqeem?khan等人設(shè)計(jì)出一種新穎的多模態(tài)語音情感識(shí)別模型，利用多頭交叉注意力機(jī)制完成語音和文本編碼器的特征融合，實(shí)現(xiàn)不同層和分支之間的跨模態(tài)交互，提升了整體模型的泛化能力。guan-nan?dong等人提出了一個(gè)用于多模態(tài)言語情感識(shí)別的時(shí)態(tài)關(guān)系推理網(wǎng)絡(luò)trin，在多模態(tài)融合過程中，該網(wǎng)絡(luò)結(jié)合每個(gè)模態(tài)時(shí)態(tài)推理生成的時(shí)序結(jié)構(gòu)全局信息，完成了跨模態(tài)特征的時(shí)序?qū)R，并采用自適應(yīng)機(jī)制選擇模態(tài)之間的隱式互補(bǔ)信息，以增強(qiáng)子空間之間的依賴關(guān)系，實(shí)現(xiàn)更為細(xì)致的模態(tài)融合。zheng?lian[6]等人設(shè)計(jì)了一種基于半監(jiān)督的多模態(tài)語音情感分析網(wǎng)絡(luò)smin。在半監(jiān)督學(xué)習(xí)的框架下，模型通過模態(tài)內(nèi)交互和跨模態(tài)交互模塊，提取單一模態(tài)內(nèi)的關(guān)鍵信息，并完成不同模態(tài)間的信息處理和整合。

6、然而，當(dāng)前方法存在以下問題：在語音和文本進(jìn)行多模態(tài)融合時(shí)，通常使用兩類特征提取器來提取特征，并在特征交互或混合前進(jìn)行特征對(duì)齊，保持不同模態(tài)的特征維度一致。然而，由于文本和語音模態(tài)的特征維度和信息密度存在差異，語音特征具有較高的時(shí)間分辨率和豐富的聲學(xué)信息，文本特征則具有更高的語義密度。在對(duì)齊過程中，以上操作可能導(dǎo)致高信息密度模態(tài)的信息損失。

7、需要說明的是，在上述背景技術(shù)部分公開的信息僅用于對(duì)本技術(shù)的背景的理解，因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的在于解決上述背景技術(shù)中存在的問題，提供一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。

2、為實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：

3、一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法，包括以下步驟：

4、s1.?數(shù)據(jù)獲?。韩@取音頻數(shù)據(jù)和文本數(shù)據(jù)作為輸入；

5、s2.?文本特征提?。菏褂梦谋揪幋a模型將文本數(shù)據(jù)轉(zhuǎn)換為詞向量，并通過自注意力機(jī)制映射文本的詞匯級(jí)特征，提取文本的語義結(jié)構(gòu)特征；

6、s3.?音頻特征提?。菏褂靡纛l上下文特征提取模型從原始音頻波形中提取音頻上下文特征，并將音頻信號(hào)轉(zhuǎn)換為梅爾頻譜圖，使用音頻時(shí)間依賴特征提取模型提取時(shí)間依賴特征；

7、s4.?跨模態(tài)特征對(duì)齊與融合：結(jié)合音頻特征和文本特征，通過音頻引導(dǎo)式文本編碼器實(shí)現(xiàn)跨模態(tài)特征融合，并通過自掩碼機(jī)制對(duì)遷移信息進(jìn)行部分遮擋，以捕獲模態(tài)間的互補(bǔ)信息；

8、s5.?多模態(tài)特征融合處理：使用多頭注意力機(jī)制綜合處理融合后的多模態(tài)特征，并通過線性映射層將綜合處理后的特征轉(zhuǎn)換為情感類別的概率分布；

9、s6.?情感分類結(jié)果生成：根據(jù)概率分布計(jì)算確定最終的情感分類結(jié)果，并輸出該結(jié)果。

10、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。

11、一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。

12、本發(fā)明具有如下有益效果：

13、本發(fā)明提出了一種創(chuàng)新的多模態(tài)情感識(shí)別方法，該方法基于所設(shè)計(jì)的模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)mamf-net，有效解決了傳統(tǒng)多模態(tài)融合中存在的信息丟失和跨模態(tài)對(duì)齊問題。mamf-net通過音頻引導(dǎo)式文本編碼器，利用語音信號(hào)的時(shí)間分辨率和上下文信息，增強(qiáng)了文本的語義表示，確保了不同模態(tài)特征在維度和信息密度上更加精準(zhǔn)的對(duì)齊。此外，模型采用自掩碼機(jī)制的遮擋策略，針對(duì)跨模態(tài)知識(shí)遷移過程中可能出現(xiàn)的信息同質(zhì)性問題，通過部分遮擋遷移信息，促進(jìn)了模態(tài)間的互補(bǔ)信息捕獲，從而提升了融合效果和系統(tǒng)穩(wěn)定性。本發(fā)明的mamf-net在情感識(shí)別任務(wù)中的顯著性能提升得益于其對(duì)模態(tài)間信息的高效整合能力。實(shí)驗(yàn)結(jié)果在cmu-mosi、cmu-mosei和ch-sims等數(shù)據(jù)集上均表明mamf-net優(yōu)于現(xiàn)有方法，驗(yàn)證了其在多模態(tài)情感分析中的高效整合能力和廣泛應(yīng)用潛力，為情感識(shí)別任務(wù)提供了一種準(zhǔn)確和魯棒的解決方案。

14、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張永兵,李恒銳,劉紹輝,陳曉培,董春山
技術(shù)所有人：哈爾濱工業(yè)大學(xué)（深圳）（哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院）
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法