午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質與流程

文檔序號:39526731發(fā)布日期:2024-09-27 17:03閱讀:41來源:國知局
一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質與流程

本發(fā)明涉及計算機視覺,尤其涉及一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質。


背景技術:

1、在當今信息時代,視頻內容的廣泛應用和迅速增長使得視頻數(shù)據(jù)的管理和檢索變得尤為重要。傳統(tǒng)的視頻檢索方法大多依賴于單一模態(tài)的信息,如根據(jù)視頻的圖像內容或音頻內容進行檢索,這種單一模態(tài)的信息難以全面準確地描述視頻內容的多樣性和復雜性。

2、而現(xiàn)有的視頻問答系統(tǒng)在處理復雜視頻信息時,通常也只依賴于從視頻內容中分析出的單一模態(tài)信息,無法充分利用視頻中蘊含的多模態(tài)信息進行全面的分析,限制了對視頻內容的理解和檢索能力,導致檢索效率和準確性不足。特別是在會議視頻、教學視頻等需要對人物發(fā)言內容進行詳細分析的應用場景中,目前的技術無法滿足用戶對視頻精準檢索和視頻問答的需求。


技術實現(xiàn)思路

1、本發(fā)明實施例提供了一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質,用于解決如下技術問題:目前的視頻問答技術依賴于單一模態(tài)信息,無法充分利用視頻中蘊含的多模態(tài)信息,導致視頻檢索的效率和準確性不足。

2、本發(fā)明實施例采用下述技術方案:

3、一方面,本發(fā)明實施例提供了一種基于多模態(tài)信息融合的視頻問答方法,方法包括:對輸入視頻文件進行基礎信息提取,得到視頻摘要以及文本字幕;

4、對所述文本字幕進行語句切分,得到字幕片段,并根據(jù)所述字幕片段,獲取對應的視頻片段及音頻片段;

5、將每個音頻片段映射為聲紋向量并進行聚類,得到若干個聲紋類型簇;

6、獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集,并輸入多模態(tài)模型中,得到每類聲紋對應的人物標簽;

7、根據(jù)所述視頻片段以及所述字幕片段,獲取關鍵幀向量以及字幕片段向量;

8、以片段為單位,將所述關鍵幀向量、字幕片段向量、人物標簽、視頻片段、字幕片段、音頻片段及對應的時間戳存入向量數(shù)據(jù)庫;

9、基于所述視頻摘要對用戶輸入的問題進行意圖分析,根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答。

10、在一種可行的實施方式中,對輸入視頻文件進行基礎信息提取,得到視頻摘要以及文本字幕,具體包括:

11、對輸入視頻文件進行通道拆分,得到視頻通道信息及音頻通道信息;

12、通過多模態(tài)大模型對所述視頻通道信息進行總結得到所述視頻摘要;

13、使用paraformer語音識別模型對所述音頻通道信息進行特征提取,輸出為文本字幕并輸出所述文本字幕中每個字的時間戳。

14、在一種可行的實施方式中,對所述文本字幕進行語句切分,得到字幕片段,并根據(jù)所述字幕片段,獲取對應的視頻片段及音頻片段,具體包括:

15、通過分段工具,以標點符號為切分點,對所述文本字幕按句進行語句切分,得到若干個字幕片段;

16、根據(jù)每個字幕片段開頭字符的時間戳及結尾字符的時間戳,確定出每個字幕片段對應的時間區(qū)間;

17、根據(jù)所述時間區(qū)間,對所述視頻通道信息及音頻通道信息分別進行切分,得到所述視頻片段及音頻片段。

18、在一種可行的實施方式中,將每個音頻片段映射為聲紋向量并進行聚類,得到若干個聲紋類型簇,具體包括:

19、通過聲紋識別模型對每個音頻片段進行特征提取,并映射到高維向量空間,得到每個音頻片段對應的聲紋向量;

20、通過聚類算法對所有聲紋向量進行聚類,得到若干個聲紋類型簇;其中,每個聲紋類型簇中的聲紋向量默認為同一個說話人的聲紋向量。

21、在一種可行的實施方式中,獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集,并輸入多模態(tài)模型中,得到每類聲紋對應的人物標簽,具體包括:

22、將每個聲紋類型簇中,每個聲紋向量對應的視頻片段進行拼接,得到每類聲紋的視頻鏡頭集;

23、將每個聲紋類型簇中,每個聲紋向量對應的字幕片段進行拼接,得到每類聲紋的字幕集;

24、通過對每類視頻鏡頭集的封面幀進行ocr識別,并通過多模態(tài)大模型對每類視頻鏡頭集與字幕集進行聲紋來源判斷;

25、根據(jù)ocr識別結果以及聲紋來源判斷結果,確定每類聲紋對應的人物信息;其中,所述人物信息至少包括:人物姓名、人物衣著特征以及聲音來源;

26、根據(jù)所述人物信息,生成每類聲紋對應的人物標簽。

27、在一種可行的實施方式中,根據(jù)所述視頻片段以及所述字幕片段,獲取關鍵幀向量以及字幕片段向量,具體包括:

28、提取每個視頻片段的關鍵幀;

29、通過所述多模態(tài)模型,對所述關鍵幀以及所述字幕片段進行向量化處理,得到所述關鍵幀向量及字幕片段向量。

30、在一種可行的實施方式中,基于所述視頻摘要對用戶輸入的問題進行意圖分析,具體包括:

31、獲取用戶輸入的問題,并對所述問題進行向量化處理,得到問題向量;

32、分析所述問題向量與存儲的各個視頻摘要的相關性,以及分析所述問題向量中隱含的人物特征;

33、根據(jù)所述相關性以及人物特征進行用戶意圖分析,得到意圖分析結果;

34、其中,所述意圖分析結果至少包括:指向特定的說話人、未指向特定的說話人但與某個視頻摘要相關、與所有視頻摘要均無關。

35、在一種可行的實施方式中,根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答,具體包括:

36、若意圖分析結果指向特定的說話人,則獲取該說話人的人物標簽,并根據(jù)所述人物標簽在所述向量數(shù)據(jù)庫中檢索對應的視頻片段及字幕片段,并輸入多模態(tài)大模型中進行問題問答;

37、若意圖分析結果未具體指向特定的說話人但與某個視頻摘要相關,則將所述問題向量與所述向量數(shù)據(jù)庫中的關鍵幀向量及字幕片段向量進行混合相似度計算并排序,并將排序結果輸入所述多模態(tài)大模型中進行問題回答;

38、若意圖分析結果與所有視頻摘要均無關,則將所述問題向量直接輸入大語言模型中進行問題回答。

39、另一方面,本發(fā)明實施例還提供了一種基于多模態(tài)信息融合的視頻問答系統(tǒng),所述系統(tǒng)包括:

40、基礎信息提取模塊,用于對輸入視頻文件進行基礎信息提取,得到視頻摘要以及文本字幕;

41、視頻切分模塊,用于對所述文本字幕進行語句切分,得到字幕片段,并根據(jù)所述字幕片段,獲取對應的視頻片段及音頻片段;

42、聲紋識別模塊,用于將每個音頻片段映射為聲紋向量并進行聚類,得到若干個聲紋類型簇;獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集,并輸入多模態(tài)模型中,得到每類聲紋對應的人物標簽;

43、向量存儲模塊,用于根據(jù)所述視頻片段以及所述字幕片段,獲取關鍵幀向量以及字幕片段向量;以片段為單位,將所述關鍵幀向量、字幕片段向量、人物標簽、視頻片段、字幕片段、音頻片段及對應的時間戳存入向量數(shù)據(jù)庫;

44、意圖識別及問答模塊,用于基于所述視頻摘要對用戶輸入的問題進行意圖分析,根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答。

45、最后,本發(fā)明實施例還提供了一種存儲介質,所述存儲介質為非易失性計算機可讀存儲介質,所述非易失性計算機可讀存儲介質存儲有至少一個程序,每個所述程序包括指令,所述指令當被終端執(zhí)行時,使所述終端執(zhí)行所述的一種基于多模態(tài)信息融合的視頻問答方法。

46、與現(xiàn)有技術相比,本發(fā)明實施例提供的一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質,具有如下有益效果:

47、本發(fā)明通過對音視頻信息進行拆分處理,結合多模態(tài)模型對語音、視頻、文本等信息進行綜合分析,實現(xiàn)了對視頻內容的準確理解和高效檢索。音視頻通道拆分以獲取視頻信息和音頻信息;通過多模態(tài)大模型生成視頻摘要;利用語音識別技術將音頻轉換為文本字幕;根據(jù)字幕文本對視頻和音頻按句切分;使用聲紋識別模型處理音頻片段獲得聲紋向量并聚類以區(qū)分不同的說話人;結合多模態(tài)模型獲取說話人的相關信息進行人物標記;抽取視頻關鍵幀并進行向量化;將語音向量、視頻向量及其它元數(shù)據(jù)打包存入向量數(shù)據(jù)庫;最后,根據(jù)用戶輸入的問題進行意圖識別,并通過多模態(tài)大模型進行問答。

48、這種方法不僅能夠提高視頻檢索的準確性,還能夠在用戶提問時根據(jù)特定發(fā)言人的內容提供更加詳細和準確的回答,有效提高視頻檢索的準確性和用戶體驗。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1