基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法與流程

文檔序號：39706620發(fā)布日期：2024-10-22 12:51閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法與流程

本發(fā)明涉及數(shù)據(jù)交互，尤其涉及一種基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法。

背景技術(shù)：

1、“數(shù)字人”是指通過計算機技術(shù)、人工智能、虛擬現(xiàn)實和3d建模等技術(shù)手段創(chuàng)建的虛擬人類形象或數(shù)字化身，數(shù)字人可以在多個領(lǐng)域中發(fā)揮作用，包括娛樂、教育、醫(yī)療、客服、廣告、以及社交媒體等。

2、現(xiàn)有的數(shù)字人交互方法多為基于模版索引的交互方法，即識別出用戶的交互語義，從預(yù)設(shè)的交互模板數(shù)據(jù)庫中檢索出交互語義對應(yīng)的交互模板，根據(jù)交互模板實現(xiàn)與用戶的交互，實際應(yīng)用時，基于模版索引的交互方法的上下文理解能力較差，難以理解用戶的情感變化，且交互模板缺乏個性化，在互動時顯得較為生硬，進而導(dǎo)致進行數(shù)字人交互時的準(zhǔn)確率較低。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法，其主要目的在于解決進行數(shù)字人交互時的準(zhǔn)確率較低的問題。

2、為實現(xiàn)上述目的，本發(fā)明提供的一種基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)，所述系統(tǒng)包括特征提取模塊、語音分析模塊、特征融合模塊、特征映射模塊及視頻交互模塊，其中：

3、所述特征提取模塊，用于對用戶進行交互數(shù)據(jù)采集，得到用戶交互視頻，分別從所述用戶交互視頻中提取出交互語音特征、交互動作特征以及交互表情特征，其中，所述特征提取模塊在分別從所述用戶交互視頻中提取出交互語音特征、交互動作特征以及交互表情特征時，具體包括：對所述用戶交互視頻進行音頻分離以及視頻分幀，得到交互語音音頻以及交互幀圖像序列；對所述交互語音音頻進行音頻分幀以及音頻加窗操作，得到加窗語音音頻；對所述加窗語音音頻進行頻域變換，得到交互語音特征；對所述交互幀圖像序列進行光照補償，得到補償幀圖像序列；對所述補償幀圖像序列進行運動估計，得到用戶運動函數(shù)；利用如下的動態(tài)除噪算法根據(jù)所述用戶運動函數(shù)對所述補償幀圖像序列進行圖像動態(tài)除噪，得到除噪幀圖像序列：其中，是所述除噪幀圖像序列中像素坐標(biāo)為的像素點的像素值，為像素坐標(biāo)所述補償幀圖像序列中的坐標(biāo)為的像素點，是指所述補償幀圖像序列的所有的像素點集合，是指數(shù)函數(shù)符號，是預(yù)設(shè)的高斯平滑參數(shù)，是預(yù)設(shè)的鄰域半徑，是像素坐標(biāo)和像素坐標(biāo)之間的平移向量，為無窮大符號，是所述補償幀圖像序列中像素的像素值符號，是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值，是所述用戶運動函數(shù)的數(shù)學(xué)符號，是所述用戶運動函數(shù)計算出的像素坐標(biāo)為的像素點相對于像素坐標(biāo)為的像素點的運動補償結(jié)果對應(yīng)的像素坐標(biāo)，?是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值，是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值；對所述除噪幀圖像序列進行人員識別以及背景分離操作，得到人員圖像序列；分別從所述人員圖像序列中提取出交互動作特征以及交互表情特征；

4、所述語音分析模塊，用于對所述交互語音特征進行語音識別以及語音情感分析，得到交互語音文本以及語音情感特征；

5、所述特征融合模塊，用于分別從所述交互動作特征中提取出動作情感特征以及從所述交互表情特征中提取出表情情感特征，對所述語音情感特征、所述動作情感特征以及所述表情情感特征進行情感特征融合以及情感語義分析，得到交互情感語義；

6、所述特征映射模塊，用于根據(jù)所述交互情感語義對所述交互語音文本進行文本回復(fù)分析以及語音合成，得到情感回復(fù)語音，分別對所述情感回復(fù)語音進行表情映射以及動作映射，得到情感回復(fù)表情以及情感回復(fù)動作；

7、所述視頻交互模塊，用于根據(jù)所述情感回復(fù)語音、所述情感回復(fù)表情以及所述情感回復(fù)動作進行數(shù)字人交互動畫渲染，得到數(shù)字人回復(fù)視頻，利用所述數(shù)字人回復(fù)視頻對所述用戶進行視頻交互。

8、可選地，所述特征提取模塊在分別從所述人員圖像序列中提取出交互動作特征以及交互表情特征時，具體包括：

9、對所述人員圖像序列進行姿態(tài)估計，得到姿態(tài)關(guān)鍵點序列；

10、根據(jù)所述姿態(tài)關(guān)鍵點序列對所述人員圖像序列進行骨架提取，得到人員骨架序列；

11、對所述人員骨架序列進行關(guān)節(jié)特征提取，得到人員關(guān)節(jié)特征序列；

12、對所述人員關(guān)節(jié)特征序列進行動作分析，得到交互動作特征；

13、對所述人員圖像序列進行面部追蹤以及面部提取，得到面部圖像序列；

14、對所述面部圖像序列進行面部關(guān)鍵點定位，得到面部關(guān)鍵點序列；

15、根據(jù)所述面部關(guān)鍵點序列分別從所述面部圖像序列中提取出面部紋理特征序列以及面部幾何特征序列；

16、根據(jù)所述面部紋理特征序列和所述面部幾何特征序列生成交互表情特征。

17、可選地，所述語音分析模塊在對所述交互語音特征進行語音識別以及語音情感分析，得到交互語音文本以及語音情感特征時，具體包括：

18、對所述交互語音特征進行功率譜計算，得到交互語音功率譜；

19、對所述交互語音功率譜進行三角濾波，得到語音音素頻譜；

20、利用如下的離散變換算法從所述語音音素頻譜中提取出語音音素特征：其中，是指所述語音音素特征中的第個特征，是特征索引，是頻率分量索引，是所述語音音素特征的頻率分量的總數(shù)，是對數(shù)函數(shù)符號，是幀索引，是所述語音音素頻率的分幀的總數(shù)，是絕對值符號，是所述語音音素頻譜的第幀在頻率處的頻譜值，是指所述語音音素頻譜在傅里葉變換后的第個頻率分量，是余弦函數(shù)符號，是圓周率符號；

21、對所述語音音素特征進行音素映射，得到語音音素序列；

22、對所述語音音素序列進行文本映射以及文本優(yōu)化，得到交互語音文本；

23、根據(jù)所述交互語音特征和所述語音音素特征生成語音情感特征。

24、可選地，所述語音分析模塊在根據(jù)所述交互語音特征和所述語音音素特征生成語音情感特征時，具體包括：

25、對所述交互語音特征進行逆頻域變換，得到加窗語音音頻；

26、利用如下的信息熵算法計算出所述加窗語音音頻的情感信息熵特征：其中，是指所述加窗語音音頻中第個通道的語音信號的情感信息熵特征，為無窮大符號，是圓周率符號，是指所述加窗語音音頻中第個通道的語音信號的標(biāo)準(zhǔn)差，是歐拉數(shù)，是指所述加窗語音音頻中第個通道的語音信號的信號值，是指所述加窗語音音頻中第個通道的語音信號的均值，為對數(shù)符號，是積分符號；

27、對所述加窗語音音頻進行過零率計算，得到語音過零特征；

28、根據(jù)所述語音音素特征、所述情感信息熵特征以及所述語音過零特征生成語音情感特征。

29、可選地，所述特征融合模塊在對所述語音情感特征、所述動作情感特征以及所述表情情感特征進行情感特征融合以及情感語義分析，得到交互情感語義時，具體包括：

30、分別對所述語音情感特征、所述動作情感特征以及所述表情情感特征進行標(biāo)準(zhǔn)化以及矩陣化操作，得到語音特征矩陣、動作特征矩陣以及表情特征矩陣；

31、對所述語音特征矩陣、所述動作特征矩陣以及所述表情特征矩陣進行情感關(guān)聯(lián)度分析，得到關(guān)聯(lián)度向量組以及關(guān)聯(lián)系數(shù)；

32、根據(jù)所述關(guān)聯(lián)度向量組以及所述關(guān)聯(lián)系數(shù)將所述語音特征矩陣、所述動作特征矩陣以及所述表情特征矩陣融合成初級情感特征矩陣；

33、對所述初級情感特征矩陣進行協(xié)方差運算，得到情感協(xié)方差矩陣；

34、對所述情感協(xié)方差矩陣進行特征值分解，得到情感特征值以及情感特征向量；

35、根據(jù)所述情感特征值從所述情感特征向量中篩選出標(biāo)準(zhǔn)情感特征向量；

36、利用所述標(biāo)準(zhǔn)情感特征向量對所述初級情感特征矩陣進行特征映射，得到交互情感特征；

37、對所述交互情感特征進行情感語義分析，得到交互情感語義。

38、可選地，所述特征融合模塊在對所述交互情感特征進行情感語義分析，得到交互情感語義時，具體包括：

39、利用自注意力機制從所述交互情感特征中提取出注意力情感特征；

40、將所述注意力情感特征殘差解碼成注意力情感向量；

41、對所述交互情感特征進行池化降維，得到池化情感特征；

42、對所述池化情感特征進行支持向量激活，得到向量機情感特征；

43、將所述向量機情感特征激活映射成向量機情感向量；

44、根據(jù)所述注意力情感向量和所述向量機情感向量生成標(biāo)準(zhǔn)情感向量，將所述標(biāo)準(zhǔn)情感向量映射成交互情感語義。

45、可選地，所述特征映射模塊在根據(jù)所述交互情感語義對所述交互語音文本進行文本回復(fù)分析以及語音合成，得到情感回復(fù)語音時，具體包括：

46、利用所述交互情感語義對所述交互語音文本進行情感標(biāo)注，得到交互情感文本；

47、對所述交互情感文本進行文本分詞以及文本向量化操作，得到情感文本特征；

48、對所述情感文本特征進行位置編碼以及注意力編碼，得到情感文本注意力特征；

49、對所述情感文本注意力特征進行注意力解碼，得到情感回復(fù)文本；

50、對所述情感回復(fù)文本進行語音頻譜轉(zhuǎn)化以及情感增強，得到回復(fù)語音頻譜；

51、對所述回復(fù)語音頻譜進行語音波形合成以及情感一致性檢查，得到情感回復(fù)語音。

52、可選地，所述特征映射模塊在分別對所述情感回復(fù)語音進行表情映射以及動作映射，得到情感回復(fù)表情以及情感回復(fù)動作時，具體包括：

53、從所述情感回復(fù)語音中提取出情感回復(fù)文本，從所述情感回復(fù)文本中提取出情感回復(fù)語義；

54、對所述情感回復(fù)語義進行面部表情映射，得到初級回復(fù)表情；

55、對所述情感回復(fù)語音進行音素分割以及口型映射，得到回復(fù)口型動作；

56、利用所述回復(fù)口型動作對所述初級回復(fù)表情進行表情更新，得到情感回復(fù)表情；

57、對所述情感回復(fù)語義進行情感動作映射，得到初級回復(fù)動作；

58、對所述情感回復(fù)文本進行文本語義分析以及語義動作映射，得到語義回復(fù)動作；

59、利用所述語義回復(fù)動作對所述初級回復(fù)動作進行動作更新，得到情感回復(fù)動作。

60、可選地，所述視頻交互模塊在根據(jù)所述情感回復(fù)語音、所述情感回復(fù)表情以及所述情感回復(fù)動作進行數(shù)字人交互動畫渲染，得到數(shù)字人回復(fù)視頻時，具體包括：

61、獲取數(shù)字人模型，利用所述情感回復(fù)動作對所述數(shù)字人模型進行肢體動作綁定，得到數(shù)字人運動數(shù)據(jù)；

62、利用所述情感回復(fù)表情對所述數(shù)字人模型進行面部表情綁定以及口型調(diào)整，得到數(shù)字人表情數(shù)據(jù)；

63、根據(jù)所述數(shù)字人運動數(shù)據(jù)以及所述數(shù)字人表情數(shù)據(jù)對所述數(shù)字人模型進行運動渲染，得到初級回復(fù)視頻；

64、利用所述情感回復(fù)語音對所述初級回復(fù)視頻進行音頻同步，得到數(shù)字人回復(fù)視頻。

65、為了解決上述問題，本發(fā)明還提供一種基于大數(shù)據(jù)信息的數(shù)字人交互方法，所述方法包括：

66、對用戶進行交互數(shù)據(jù)采集，得到用戶交互視頻，分別從所述用戶交互視頻中提取出交互語音特征、交互動作特征以及交互表情特征，其中，所述分別從所述用戶交互視頻中提取出交互語音特征、交互動作特征以及交互表情特征，包括：對所述用戶交互視頻進行音頻分離以及視頻分幀，得到交互語音音頻以及交互幀圖像序列；對所述交互語音音頻進行音頻分幀以及音頻加窗操作，得到加窗語音音頻；對所述加窗語音音頻進行頻域變換，得到交互語音特征；對所述交互幀圖像序列進行光照補償，得到補償幀圖像序列；對所述補償幀圖像序列進行運動估計，得到用戶運動函數(shù)；利用如下的動態(tài)除噪算法根據(jù)所述用戶運動函數(shù)對所述補償幀圖像序列進行圖像動態(tài)除噪，得到除噪幀圖像序列：其中，是所述除噪幀圖像序列中像素坐標(biāo)為的像素點的像素值，為像素坐標(biāo)所述補償幀圖像序列中的坐標(biāo)為的像素點，是指所述補償幀圖像序列的所有的像素點集合，是指數(shù)函數(shù)符號，是預(yù)設(shè)的高斯平滑參數(shù)，是預(yù)設(shè)的鄰域半徑，是像素坐標(biāo)和像素坐標(biāo)之間的平移向量，為無窮大符號，是所述補償幀圖像序列中像素的像素值符號，是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值，是所述用戶運動函數(shù)的數(shù)學(xué)符號，是所述用戶運動函數(shù)計算出的像素坐標(biāo)為的像素點相對于像素坐標(biāo)為的像素點的運動補償結(jié)果對應(yīng)的像素坐標(biāo)，?是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值，是所述補償幀圖像序列中像素坐標(biāo)為的像素點的像素值；對所述除噪幀圖像序列進行人員識別以及背景分離操作，得到人員圖像序列；分別從所述人員圖像序列中提取出交互動作特征以及交互表情特征；

67、對所述交互語音特征進行語音識別以及語音情感分析，得到交互語音文本以及語音情感特征；

68、分別從所述交互動作特征中提取出動作情感特征以及從所述交互表情特征中提取出表情情感特征，對所述語音情感特征、所述動作情感特征以及所述表情情感特征進行情感特征融合以及情感語義分析，得到交互情感語義；

69、根據(jù)所述交互情感語義對所述交互語音文本進行文本回復(fù)分析以及語音合成，得到情感回復(fù)語音，分別對所述情感回復(fù)語音進行表情映射以及動作映射，得到情感回復(fù)表情以及情感回復(fù)動作；

70、根據(jù)所述情感回復(fù)語音、所述情感回復(fù)表情以及所述情感回復(fù)動作進行數(shù)字人交互動畫渲染，得到數(shù)字人回復(fù)視頻，利用所述數(shù)字人回復(fù)視頻對所述用戶進行視頻交互。

71、本發(fā)明實施例通過提取出交互語音特征、交互動作特征以及交互表情特征，能夠?qū)崿F(xiàn)針對用戶交互行為的語音、動作以及表情三個維度的特征提取，從而多方面分析用戶的交互信息，提高數(shù)字人交互的準(zhǔn)確性，通過進行語音識別以及語音情感分析，能夠結(jié)合多維度語音特征實現(xiàn)對語音的文本分析以及情感分析，從而提高后續(xù)數(shù)字人生成回復(fù)的準(zhǔn)確性，通過進行情感特征融合，能夠根據(jù)不同類型的情感特征之間的關(guān)聯(lián)性以及重要性進行特征融合以及特征降維，從而提高情感語義識別的準(zhǔn)確性以及運算的效率，通過結(jié)合自注意力機制進行情感語義分析，能夠發(fā)覺情感特征之間的細(xì)節(jié)特征，提高情感語義識別的準(zhǔn)確性。

72、通過進行文本回復(fù)分析以及語音合成，能夠結(jié)合機器學(xué)習(xí)的方法合成出包含情感的回復(fù)語音，提高數(shù)字人交互的真實性，通過進行表情映射以及動作映射，能夠?qū)崿F(xiàn)數(shù)字人回復(fù)時結(jié)合內(nèi)容的進行肢體運動，并實現(xiàn)口型和語音的對齊，提高數(shù)字人交互的真實性以及準(zhǔn)確性，通過進行數(shù)字人交互動畫渲染以及視頻交互，能夠結(jié)合肢體動作、語音以及面部表情對數(shù)字人進行交互模擬，從而提高數(shù)字人交互的真實感以及準(zhǔn)確度，因此，本發(fā)明提供的一種基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法，能夠提高數(shù)字人交互的準(zhǔn)確率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫文化,李選正
技術(shù)所有人：深圳時空數(shù)字科技有限公司
我是此專利的發(fā)明人

上一篇：一種用于芯片的真空吸取器的制作方法
上一篇：一種應(yīng)激造模用鼠籠

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于大數(shù)據(jù)信息的數(shù)字人交互系統(tǒng)及方法與流程