本技術(shù)涉及視頻視覺技術(shù)和三維人像驅(qū)動,具體涉及一種數(shù)字人動畫的生成方法、裝置及數(shù)字人動畫生成模型。
背景技術(shù):
1、語音驅(qū)動的數(shù)字人動畫生成是指根據(jù)輸入語音數(shù)據(jù),對數(shù)字人面部模型進(jìn)行相應(yīng)變形,使人物呈現(xiàn)出與語音對齊的表情、口型,最終渲染合成得到動態(tài)數(shù)字人講話視頻的技術(shù)。數(shù)字人建模分為二維(2d)生成和三維(3d)重建兩大類技術(shù)路線。
2、現(xiàn)有的語音驅(qū)動3d數(shù)字人面部模型的方法,按照3d數(shù)字人建模方式分為兩大類,一種是針對基于人臉三維形變統(tǒng)計模型(3d?morphable?face?models,3dmm)重建的顯式三維人臉模型,另一種是針對基于神經(jīng)輻射場等神經(jīng)隱式表示的三維人臉模型。由于顯式數(shù)字人模型通常以網(wǎng)格數(shù)據(jù)形式呈現(xiàn),基于參數(shù)化表示便于驅(qū)動和編輯,且已有成熟的渲染管線,應(yīng)用范圍更加廣泛,因此大多數(shù)方法基于這類模型進(jìn)行語音驅(qū)動生成動畫?;?dmm的顯式人臉模型將人臉表情造成的三維形變表示為一系列表情基底(表情元素)的線性組合,通過設(shè)定各個表情基底的權(quán)重系數(shù)(面部表情系數(shù))來表征完整的人臉表情,經(jīng)過混合形變(blendshape)計算得到形變后的人臉模型頂點(diǎn)的三維坐標(biāo)。
3、目前,針對基于人臉3dmm重建的顯式三維人臉模型的語音驅(qū)動3d數(shù)字人面部模型的方法,通常沒有對語音中的情感分量進(jìn)行解耦學(xué)習(xí),且無法顯式地對情感強(qiáng)度到表情參數(shù)的作用進(jìn)行建模,用戶無法對情感強(qiáng)度進(jìn)行控制。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的至少一個實(shí)施例提供了一種數(shù)字人動畫的生成方法、裝置及數(shù)字人動畫生成模型,能夠有效將語音中的情感特征從語音中解耦出來,并結(jié)合視覺信息增強(qiáng)情感特征的學(xué)習(xí)能力,提高數(shù)字人動畫生成模型所生成的數(shù)字人動畫的性能。
2、第一方面,本技術(shù)實(shí)施例提供了一種數(shù)字人動畫的生成方法,包括:
3、獲取目標(biāo)音頻數(shù)據(jù)序列;
4、獲取用戶設(shè)置的用于表示情感強(qiáng)度的第一嵌入向量以及用于表示所述數(shù)字人的個體講話風(fēng)格的第二嵌入向量;
5、將所述第一嵌入向量、第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列輸入至數(shù)字人動畫生成模型,獲得所述數(shù)字人動畫生成模型輸出的面部表情系數(shù);
6、根據(jù)所述數(shù)字人動畫生成模型輸出的面部表情系數(shù),對數(shù)字人面部模型進(jìn)行混合形變計算,并渲染得到所述數(shù)字人講話的面部動畫。
7、可選的,所述數(shù)字人動畫生成模型包括情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器、融合網(wǎng)絡(luò)和參數(shù)解碼器;
8、所述情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器分別用于生成所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
9、所述融合網(wǎng)絡(luò),用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;以及,融合所述第二融合特征和第三融合特征,得到第四融合特征;
10、所述參數(shù)解碼器,用于對所述第四融合特征進(jìn)行解碼,獲得所述面部表情系數(shù)。
11、可選的,所述融合網(wǎng)絡(luò)包括第一融合模塊、交叉注意力融合網(wǎng)絡(luò)、第二融合模塊、第三融合模塊;其中,
12、所述第一融合模塊,用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;
13、所述交叉注意力融合網(wǎng)絡(luò),用于融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;
14、所述第二融合模塊,用于融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;
15、所述第三融合模塊,用于融合所述第二融合特征和第三融合特征,得到第四融合特征。
16、可選的,所述交叉注意力融合網(wǎng)絡(luò)包括:第一層歸一化模塊、第二層歸一化模塊、多頭交叉注意力模塊和前饋網(wǎng)絡(luò);其中,所述多頭交叉注意力模塊包括第一全連接層、第二全連接層、第三全連接層、softmax層和拼接模塊;
17、所述第一層歸一化模塊,用于對所述第一融合特征進(jìn)行歸一化處理,得到層歸一化后的所述第一融合特征;
18、所述第二層歸一化模塊,用于對所述內(nèi)容特征向量進(jìn)行歸一化處理,得到層歸一化后的所述內(nèi)容特征向量;
19、所述第一全連接層用于從層歸一化后的所述第一融合特征的各個頭中學(xué)習(xí)query向量;
20、所述第二全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)key向量;
21、所述第三全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)value向量;
22、所述softmax層用于根據(jù)所述query向量和key向量學(xué)習(xí)交叉注意力權(quán)重;
23、所述拼接模塊,用于將各個頭的交叉注意力權(quán)重與value向量相乘得的特征進(jìn)行拼接,并將拼接得到的拼接特征向量輸入至所述前饋網(wǎng)絡(luò),將所述前饋網(wǎng)絡(luò)輸出的特征向量作為所述第二融合特征進(jìn)行輸出。
24、可選的,在將所述拼接特征向量輸入至所述前饋網(wǎng)絡(luò)前,進(jìn)一步將所述層歸一化后的所述第一融合特征經(jīng)過跳遠(yuǎn)連接后與所述拼接特征向量相疊加,并將疊加得到的特征輸入至所述前饋網(wǎng)絡(luò);
25、和/或,
26、在得到所述前饋網(wǎng)絡(luò)輸出的特征向量后,進(jìn)一步將所述前饋網(wǎng)絡(luò)的輸入特征向量經(jīng)過跳遠(yuǎn)連接后與所述前饋網(wǎng)絡(luò)輸出的特征向量相疊加,并將疊加得到的特征作為所述第二融合特征進(jìn)行輸出。
27、可選的,還包括:預(yù)先訓(xùn)練得到所述數(shù)字人動畫生成模型,所述數(shù)字人動畫生成模型的訓(xùn)練,包括:
28、獲取訓(xùn)練集,所述訓(xùn)練集包括對應(yīng)不同音視頻文件的多個樣本以及每個樣本對應(yīng)的面部表情系數(shù)真值,所述樣本包括從所述音視頻文件中提取的相互對齊的樣本音頻數(shù)據(jù)序列和樣本面部圖像序列;
29、獲取用于表示所述樣本對應(yīng)的個體講話風(fēng)格的第三嵌入向量;
30、將所述樣本音頻數(shù)據(jù)序列,分別輸入至所述情感編碼器、內(nèi)容編碼器和編碼器,獲得所述樣本音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
31、將所述樣本面部圖像序列輸入至一視覺情感分析網(wǎng)絡(luò),獲得用于表示所述樣本的情感強(qiáng)度的第四嵌入向量;
32、通過所述融合網(wǎng)絡(luò),融合所述第四嵌入向量和所述樣本音頻數(shù)據(jù)序列的情感特征向量,得到第五融合特征;融合所述第五融合特征和所述樣本音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第六融合特征;融合所述第二嵌入向量和所述樣本音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第七融合特征;以及,融合所述第六融合特征和第七融合特征,得到第八融合特征;
33、通過所述編碼器對所述第八融合特征進(jìn)行解碼,獲得面部表情系數(shù)的預(yù)測值;
34、根據(jù)所述面部表情系數(shù)的預(yù)測值與所述面部表情系數(shù)真值,對對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練結(jié)束條件,獲得訓(xùn)練好的所述數(shù)字人動畫生成模型。
35、可選的,所述優(yōu)化訓(xùn)練包括粗略階段的優(yōu)化訓(xùn)練;在所述粗略階段的優(yōu)化訓(xùn)練中,采用參數(shù)回歸損失作為損失函數(shù),對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練;
36、所述參數(shù)回歸損失是自回歸損失和情感交叉回歸損失的加權(quán)和;
37、所述自回歸損失是基于所述樣本的樣本音頻數(shù)據(jù)序列生成的面部表情系數(shù)的預(yù)測值與同一樣本的面部表情系數(shù)真值之間的差異;
38、所述情感交叉回歸損失是第一損失與第二損失之和,其中,所述第一損失是面部表情系數(shù)的第一預(yù)測值與第一樣本對應(yīng)的面部表情系數(shù)真值之間的差異,所述第二損失是面部表情系數(shù)的第二預(yù)測值與第二樣本對應(yīng)的面部表情系數(shù)真值之間的差異;
39、所述第一預(yù)測值是在基于第三樣本的樣本音頻數(shù)據(jù)序列生成面部表情系數(shù)的過程中,將所述情感編碼器的輸入替換為第四樣本的樣本音頻數(shù)據(jù)序列,所述數(shù)字人動畫生成模型所生成的面部表情的預(yù)測值;
40、所述第二預(yù)測值是在基于所述第四樣本的樣本音頻數(shù)據(jù)序列生成面部表情系數(shù)的過程中,將所述情感編碼器的輸入替換為所述第三樣本的樣本音頻數(shù)據(jù)序列,所述數(shù)字人動畫生成模型所生成的面部表情的預(yù)測值;
41、所述第一樣本、第二樣本、第三樣本和第四樣本依次對應(yīng)于第一音視頻文件、第二音視頻文件、第三音視頻文件和第四音視頻文件;所述第一音視頻文件是一個個體在第一情感類別下講述第一文本的音視頻文件,所述第二音視頻文件是同一個體在第二情感類別下講述第二文本的音視頻文件,所述第三樣本是同一個體在第二情感類別下講述第一文本的音視頻文件,所述第四樣本是同一個體在第一情感類別下講述第二文本的音視頻文件。
42、可選的,所述優(yōu)化訓(xùn)練還包括精細(xì)階段的優(yōu)化訓(xùn)練;在所述精細(xì)階段的優(yōu)化訓(xùn)練中,采用二維投影損失作為損失函數(shù),對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練;其中,所述二維投影損失為:基于所述面部表情系數(shù)的預(yù)測值生成的面部關(guān)鍵點(diǎn)和基于所述面部表情系數(shù)真值生成的面部關(guān)鍵點(diǎn)在二維平面上的投影之間的差異。
43、第二方面,本技術(shù)實(shí)施例提供了一種數(shù)字人動畫生成模型,包括情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器、融合網(wǎng)絡(luò)和參數(shù)解碼器;
44、所述情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器分別用于生成所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
45、所述融合網(wǎng)絡(luò),用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;以及,融合所述第二融合特征和第三融合特征,得到第四融合特征;
46、所述參數(shù)解碼器,用于對所述第四融合特征進(jìn)行解碼,獲得所述面部表情系數(shù)。
47、可選的,所述數(shù)字人動畫生成模型包括情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器、融合網(wǎng)絡(luò)和參數(shù)解碼器;
48、所述情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器分別用于生成所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
49、所述融合網(wǎng)絡(luò),用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;以及,融合所述第二融合特征和第三融合特征,得到第四融合特征;
50、所述參數(shù)解碼器,用于對所述第四融合特征進(jìn)行解碼,獲得所述面部表情系數(shù)。
51、可選的,所述融合網(wǎng)絡(luò)包括第一融合模塊、交叉注意力融合網(wǎng)絡(luò)、第二融合模塊、第三融合模塊;其中,
52、所述第一融合模塊,用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;
53、所述交叉注意力融合網(wǎng)絡(luò),用于融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;
54、所述第二融合模塊,用于融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;
55、所述第三融合模塊,用于融合所述第二融合特征和第三融合特征,得到第四融合特征。
56、可選的,所述交叉注意力融合網(wǎng)絡(luò)包括:第一層歸一化模塊、第二層歸一化模塊、多頭交叉注意力模塊和前饋網(wǎng)絡(luò);其中,所述多頭交叉注意力模塊包括第一全連接層、第二全連接層、第三全連接層、softmax層和拼接模塊;
57、所述第一層歸一化模塊,用于對所述第一融合特征進(jìn)行歸一化處理,得到層歸一化后的所述第一融合特征;
58、所述第二層歸一化模塊,用于對所述內(nèi)容特征向量進(jìn)行歸一化處理,得到層歸一化后的所述內(nèi)容特征向量;
59、所述第一全連接層用于從層歸一化后的所述第一融合特征的各個頭中學(xué)習(xí)query向量;
60、所述第二全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)key向量;
61、所述第三全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)value向量;
62、所述softmax層用于根據(jù)所述query向量和key向量學(xué)習(xí)交叉注意力權(quán)重;
63、所述拼接模塊,用于將各個頭的交叉注意力權(quán)重與value向量相乘得的特征進(jìn)行拼接,并將拼接得到的拼接特征向量輸入至所述前饋網(wǎng)絡(luò),將所述前饋網(wǎng)絡(luò)輸出的特征向量作為所述第二融合特征進(jìn)行輸出。
64、可選的,所述拼接模塊,還用于在將所述拼接特征向量輸入至所述前饋網(wǎng)絡(luò)前,進(jìn)一步將所述層歸一化后的所述第一融合特征經(jīng)過跳遠(yuǎn)連接后與所述拼接特征向量相疊加,并將疊加得到的特征輸入至所述前饋網(wǎng)絡(luò);
65、和/或;
66、和/或,
67、在得到所述前饋網(wǎng)絡(luò)輸出的特征向量后,進(jìn)一步將所述前饋網(wǎng)絡(luò)的輸入特征向量經(jīng)過跳遠(yuǎn)連接后與所述前饋網(wǎng)絡(luò)輸出的特征向量相疊加,并將疊加得到的特征作為所述第二融合特征進(jìn)行輸出。
68、可選的,第三方面,本技術(shù)實(shí)施例提供了一種數(shù)字人動畫的生成裝置,包括:
69、第一獲取模塊,用于獲取目標(biāo)音頻數(shù)據(jù)序列;
70、第二獲取模塊,用于獲取用戶設(shè)置的用于表示情感強(qiáng)度的第一嵌入向量以及用于表示所述數(shù)字人的個體講話風(fēng)格的第二嵌入向量;
71、模型調(diào)用模塊,用于將所述第一嵌入向量、第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列輸入至數(shù)字人動畫生成模型,獲得所述數(shù)字人動畫生成模型輸出的面部表情系數(shù);
72、動畫生成模塊,用于根據(jù)所述數(shù)字人動畫生成模型輸出的面部表情系數(shù),對數(shù)字人面部模型進(jìn)行混合形變計算,并渲染得到所述數(shù)字人講話的面部動畫。
73、可選的,所述數(shù)字人動畫生成模型包括情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器、融合網(wǎng)絡(luò)和參數(shù)解碼器;
74、所述情感編碼器、內(nèi)容編碼器、風(fēng)格編碼器分別用于生成所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
75、所述融合網(wǎng)絡(luò),用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;以及,融合所述第二融合特征和第三融合特征,得到第四融合特征;
76、所述參數(shù)解碼器,用于對所述第四融合特征進(jìn)行解碼,獲得所述面部表情系數(shù)。
77、可選的,所述融合網(wǎng)絡(luò)包括第一融合模塊、交叉注意力融合網(wǎng)絡(luò)、第二融合模塊、第三融合模塊;其中,
78、所述第一融合模塊,用于融合所述第一嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的情感特征向量,得到第一融合特征;
79、所述交叉注意力融合網(wǎng)絡(luò),用于融合所述第一融合特征和所述目標(biāo)音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第二融合特征;
80、所述第二融合模塊,用于融合所述第二嵌入向量和所述目標(biāo)音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第三融合特征;
81、所述第三融合模塊,用于融合所述第二融合特征和第三融合特征,得到第四融合特征。
82、可選的,所述交叉注意力融合網(wǎng)絡(luò)包括:第一層歸一化模塊、第二層歸一化模塊、多頭交叉注意力模塊和前饋網(wǎng)絡(luò);其中,所述多頭交叉注意力模塊包括第一全連接層、第二全連接層、第三全連接層、softmax層和拼接模塊;
83、所述第一層歸一化模塊,用于對所述第一融合特征進(jìn)行歸一化處理,得到層歸一化后的所述第一融合特征;
84、所述第二層歸一化模塊,用于對所述內(nèi)容特征向量進(jìn)行歸一化處理,得到層歸一化后的所述內(nèi)容特征向量;
85、所述第一全連接層用于從層歸一化后的所述第一融合特征的各個頭中學(xué)習(xí)query向量;
86、所述第二全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)key向量;
87、所述第三全連接層用于從層歸一化后的所述內(nèi)容特征向量的各個頭中學(xué)習(xí)value向量;
88、所述softmax層用于根據(jù)所述query向量和key向量學(xué)習(xí)交叉注意力權(quán)重;
89、所述拼接模塊,用于將各個頭的交叉注意力權(quán)重與value向量相乘得的特征進(jìn)行拼接,并將拼接得到的拼接特征向量輸入至所述前饋網(wǎng)絡(luò),將所述前饋網(wǎng)絡(luò)輸出的特征向量作為所述第二融合特征進(jìn)行輸出。
90、可選的,所述拼接模塊,還用于在將所述拼接特征向量輸入至所述前饋網(wǎng)絡(luò)前,進(jìn)一步將所述層歸一化后的所述第一融合特征經(jīng)過跳遠(yuǎn)連接后與所述拼接特征向量相疊加,并將疊加得到的特征輸入至所述前饋網(wǎng)絡(luò);
91、和/或,
92、在得到所述前饋網(wǎng)絡(luò)輸出的特征向量后,進(jìn)一步將所述前饋網(wǎng)絡(luò)的輸入特征向量經(jīng)過跳遠(yuǎn)連接后與所述前饋網(wǎng)絡(luò)輸出的特征向量相疊加,并將疊加得到的特征作為所述第二融合特征進(jìn)行輸出。
93、可選的,還包括:
94、訓(xùn)練模塊,用于預(yù)先訓(xùn)練得到所述數(shù)字人動畫生成模型,其中,所述數(shù)字人動畫生成模型的訓(xùn)練,包括:
95、獲取訓(xùn)練集,所述訓(xùn)練集包括對應(yīng)不同音視頻文件的多個樣本以及每個樣本對應(yīng)的面部表情系數(shù)真值,所述樣本包括從所述音視頻文件中提取的相互對齊的樣本音頻數(shù)據(jù)序列和樣本面部圖像序列;
96、獲取用于表示所述樣本對應(yīng)的個體講話風(fēng)格的第三嵌入向量;
97、將所述樣本音頻數(shù)據(jù)序列,分別輸入至所述情感編碼器、內(nèi)容編碼器和編碼器,獲得所述樣本音頻數(shù)據(jù)序列的情感特征向量、內(nèi)容特征向量和風(fēng)格特征向量;
98、將所述樣本面部圖像序列輸入至一視覺情感分析網(wǎng)絡(luò),獲得用于表示所述樣本的情感強(qiáng)度的第四嵌入向量;
99、通過所述融合網(wǎng)絡(luò),融合所述第四嵌入向量和所述樣本音頻數(shù)據(jù)序列的情感特征向量,得到第五融合特征;融合所述第五融合特征和所述樣本音頻數(shù)據(jù)序列的內(nèi)容特征向量,得到第六融合特征;融合所述第二嵌入向量和所述樣本音頻數(shù)據(jù)序列的風(fēng)格特征向量,得到第七融合特征;以及,融合所述第六融合特征和第七融合特征,得到第八融合特征;
100、通過所述編碼器對所述第八融合特征進(jìn)行解碼,獲得面部表情系數(shù)的預(yù)測值;
101、根據(jù)所述面部表情系數(shù)的預(yù)測值與所述面部表情系數(shù)真值,對對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練結(jié)束條件,獲得訓(xùn)練好的所述數(shù)字人動畫生成模型。
102、可選的,所述優(yōu)化訓(xùn)練包括粗略階段的優(yōu)化訓(xùn)練;在所述粗略階段的優(yōu)化訓(xùn)練中,采用參數(shù)回歸損失作為損失函數(shù),對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練;
103、所述參數(shù)回歸損失是自回歸損失和情感交叉回歸損失的加權(quán)和;
104、所述自回歸損失是基于所述樣本的樣本音頻數(shù)據(jù)序列生成的面部表情系數(shù)的預(yù)測值與同一樣本的面部表情系數(shù)真值之間的差異;
105、所述情感交叉回歸損失是第一損失與第二損失之和,其中,所述第一損失是面部表情系數(shù)的第一預(yù)測值與第一樣本對應(yīng)的面部表情系數(shù)真值之間的差異,所述第二損失是面部表情系數(shù)的第二預(yù)測值與第二樣本對應(yīng)的面部表情系數(shù)真值之間的差異;
106、所述第一預(yù)測值是在基于第三樣本的樣本音頻數(shù)據(jù)序列生成面部表情系數(shù)的過程中,將所述情感編碼器的輸入替換為第四樣本的樣本音頻數(shù)據(jù)序列,所述數(shù)字人動畫生成模型所生成的面部表情的預(yù)測值;
107、所述第二預(yù)測值是在基于所述第四樣本的樣本音頻數(shù)據(jù)序列生成面部表情系數(shù)的過程中,將所述情感編碼器的輸入替換為所述第三樣本的樣本音頻數(shù)據(jù)序列,所述數(shù)字人動畫生成模型所生成的面部表情的預(yù)測值;
108、所述第一樣本、第二樣本、第三樣本和第四樣本依次對應(yīng)于第一音視頻文件、第二音視頻文件、第三音視頻文件和第四音視頻文件;所述第一音視頻文件是一個個體在第一情感類別下講述第一文本的音視頻文件,所述第二音視頻文件是同一個體在第二情感類別下講述第二文本的音視頻文件,所述第三樣本是同一個體在第二情感類別下講述第一文本的音視頻文件,所述第四樣本是同一個體在第一情感類別下講述第二文本的音視頻文件。
109、可選的,所述優(yōu)化訓(xùn)練還包括精細(xì)階段的優(yōu)化訓(xùn)練;在所述精細(xì)階段的優(yōu)化訓(xùn)練中,采用二維投影損失作為損失函數(shù),對所述數(shù)字人動畫生成模型進(jìn)行優(yōu)化訓(xùn)練;其中,所述二維投影損失為:基于所述面部表情系數(shù)的預(yù)測值生成的面部關(guān)鍵點(diǎn)和基于所述面部表情系數(shù)真值生成的面部關(guān)鍵點(diǎn)在二維平面上的投影之間的差異。
110、第四方面,本技術(shù)實(shí)施例提供了一種數(shù)字人動畫的生成裝置,包括:處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的程序,所述程序被所述處理器執(zhí)行時實(shí)現(xiàn)如第一方面所述的方法的步驟。
111、第五方面,本技術(shù)實(shí)施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有程序,所述程序被處理器執(zhí)行時,實(shí)現(xiàn)如上所述的方法的步驟。
112、第六方面,本技術(shù)實(shí)施例提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)指令,所述計算機(jī)指令被處理器執(zhí)行時實(shí)現(xiàn)如第一方面所述的方法的步驟。
113、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例提供的數(shù)字人動畫的生成方法、裝置及數(shù)字人動畫生成模型,提出了語音驅(qū)動數(shù)字人全局面部表情及口型的技術(shù)框架,將語音中的情感、內(nèi)容、風(fēng)格進(jìn)行解耦學(xué)習(xí),顯式地對多種情感的強(qiáng)度進(jìn)行建模,增強(qiáng)情感表征的豐富度、靈活度。另外,在模型訓(xùn)練階段,將從圖像解碼出的視覺情感特征與語音情感特征相結(jié)合,增強(qiáng)模型的情感學(xué)習(xí)能力;在推理階段采用用戶自定義的情感強(qiáng)度嵌入替代圖像情感分支的輸出,實(shí)現(xiàn)了用戶對情感強(qiáng)度的控制,無需依賴語音對齊的圖像輸入,便于實(shí)際工程應(yīng)用。另外,還提出了粗略+精細(xì)兩階段的模型優(yōu)化策略。綜上,本專利提出的方法從網(wǎng)絡(luò)框架設(shè)計、特征學(xué)習(xí)、訓(xùn)練優(yōu)化三個層面實(shí)現(xiàn)了對語音情感表示的增強(qiáng),可以實(shí)現(xiàn)豐富靈活、逼真自然的數(shù)字人講話動畫生成。