一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質與流程

文檔序號：39526731發(fā)布日期：2024-09-27 17:03閱讀：41來源：國知局

本發(fā)明涉及計算機視覺，尤其涉及一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質。

背景技術：

1、在當今信息時代，視頻內容的廣泛應用和迅速增長使得視頻數(shù)據(jù)的管理和檢索變得尤為重要。傳統(tǒng)的視頻檢索方法大多依賴于單一模態(tài)的信息，如根據(jù)視頻的圖像內容或音頻內容進行檢索，這種單一模態(tài)的信息難以全面準確地描述視頻內容的多樣性和復雜性。

2、而現(xiàn)有的視頻問答系統(tǒng)在處理復雜視頻信息時，通常也只依賴于從視頻內容中分析出的單一模態(tài)信息，無法充分利用視頻中蘊含的多模態(tài)信息進行全面的分析，限制了對視頻內容的理解和檢索能力，導致檢索效率和準確性不足。特別是在會議視頻、教學視頻等需要對人物發(fā)言內容進行詳細分析的應用場景中，目前的技術無法滿足用戶對視頻精準檢索和視頻問答的需求。

技術實現(xiàn)思路

1、本發(fā)明實施例提供了一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質，用于解決如下技術問題：目前的視頻問答技術依賴于單一模態(tài)信息，無法充分利用視頻中蘊含的多模態(tài)信息，導致視頻檢索的效率和準確性不足。

2、本發(fā)明實施例采用下述技術方案：

3、一方面，本發(fā)明實施例提供了一種基于多模態(tài)信息融合的視頻問答方法，方法包括：對輸入視頻文件進行基礎信息提取，得到視頻摘要以及文本字幕；

4、對所述文本字幕進行語句切分，得到字幕片段，并根據(jù)所述字幕片段，獲取對應的視頻片段及音頻片段；

5、將每個音頻片段映射為聲紋向量并進行聚類，得到若干個聲紋類型簇；

6、獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集，并輸入多模態(tài)模型中，得到每類聲紋對應的人物標簽；

7、根據(jù)所述視頻片段以及所述字幕片段，獲取關鍵幀向量以及字幕片段向量；

8、以片段為單位，將所述關鍵幀向量、字幕片段向量、人物標簽、視頻片段、字幕片段、音頻片段及對應的時間戳存入向量數(shù)據(jù)庫；

9、基于所述視頻摘要對用戶輸入的問題進行意圖分析，根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答。

10、在一種可行的實施方式中，對輸入視頻文件進行基礎信息提取，得到視頻摘要以及文本字幕，具體包括：

11、對輸入視頻文件進行通道拆分，得到視頻通道信息及音頻通道信息；

12、通過多模態(tài)大模型對所述視頻通道信息進行總結得到所述視頻摘要；

13、使用paraformer語音識別模型對所述音頻通道信息進行特征提取，輸出為文本字幕并輸出所述文本字幕中每個字的時間戳。

14、在一種可行的實施方式中，對所述文本字幕進行語句切分，得到字幕片段，并根據(jù)所述字幕片段，獲取對應的視頻片段及音頻片段，具體包括：

15、通過分段工具，以標點符號為切分點，對所述文本字幕按句進行語句切分，得到若干個字幕片段；

16、根據(jù)每個字幕片段開頭字符的時間戳及結尾字符的時間戳，確定出每個字幕片段對應的時間區(qū)間；

17、根據(jù)所述時間區(qū)間，對所述視頻通道信息及音頻通道信息分別進行切分，得到所述視頻片段及音頻片段。

18、在一種可行的實施方式中，將每個音頻片段映射為聲紋向量并進行聚類，得到若干個聲紋類型簇，具體包括：

19、通過聲紋識別模型對每個音頻片段進行特征提取，并映射到高維向量空間，得到每個音頻片段對應的聲紋向量；

20、通過聚類算法對所有聲紋向量進行聚類，得到若干個聲紋類型簇；其中，每個聲紋類型簇中的聲紋向量默認為同一個說話人的聲紋向量。

21、在一種可行的實施方式中，獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集，并輸入多模態(tài)模型中，得到每類聲紋對應的人物標簽，具體包括：

22、將每個聲紋類型簇中，每個聲紋向量對應的視頻片段進行拼接，得到每類聲紋的視頻鏡頭集；

23、將每個聲紋類型簇中，每個聲紋向量對應的字幕片段進行拼接，得到每類聲紋的字幕集；

24、通過對每類視頻鏡頭集的封面幀進行ocr識別，并通過多模態(tài)大模型對每類視頻鏡頭集與字幕集進行聲紋來源判斷；

25、根據(jù)ocr識別結果以及聲紋來源判斷結果，確定每類聲紋對應的人物信息；其中，所述人物信息至少包括：人物姓名、人物衣著特征以及聲音來源；

26、根據(jù)所述人物信息，生成每類聲紋對應的人物標簽。

27、在一種可行的實施方式中，根據(jù)所述視頻片段以及所述字幕片段，獲取關鍵幀向量以及字幕片段向量，具體包括：

28、提取每個視頻片段的關鍵幀；

29、通過所述多模態(tài)模型，對所述關鍵幀以及所述字幕片段進行向量化處理，得到所述關鍵幀向量及字幕片段向量。

30、在一種可行的實施方式中，基于所述視頻摘要對用戶輸入的問題進行意圖分析，具體包括：

31、獲取用戶輸入的問題，并對所述問題進行向量化處理，得到問題向量；

32、分析所述問題向量與存儲的各個視頻摘要的相關性，以及分析所述問題向量中隱含的人物特征；

33、根據(jù)所述相關性以及人物特征進行用戶意圖分析，得到意圖分析結果；

34、其中，所述意圖分析結果至少包括：指向特定的說話人、未指向特定的說話人但與某個視頻摘要相關、與所有視頻摘要均無關。

35、在一種可行的實施方式中，根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答，具體包括：

36、若意圖分析結果指向特定的說話人，則獲取該說話人的人物標簽，并根據(jù)所述人物標簽在所述向量數(shù)據(jù)庫中檢索對應的視頻片段及字幕片段，并輸入多模態(tài)大模型中進行問題問答；

37、若意圖分析結果未具體指向特定的說話人但與某個視頻摘要相關，則將所述問題向量與所述向量數(shù)據(jù)庫中的關鍵幀向量及字幕片段向量進行混合相似度計算并排序，并將排序結果輸入所述多模態(tài)大模型中進行問題回答；

38、若意圖分析結果與所有視頻摘要均無關，則將所述問題向量直接輸入大語言模型中進行問題回答。

39、另一方面，本發(fā)明實施例還提供了一種基于多模態(tài)信息融合的視頻問答系統(tǒng)，所述系統(tǒng)包括：

40、基礎信息提取模塊，用于對輸入視頻文件進行基礎信息提取，得到視頻摘要以及文本字幕；

41、視頻切分模塊，用于對所述文本字幕進行語句切分，得到字幕片段，并根據(jù)所述字幕片段，獲取對應的視頻片段及音頻片段；

42、聲紋識別模塊，用于將每個音頻片段映射為聲紋向量并進行聚類，得到若干個聲紋類型簇；獲取每個聲紋類型簇對應的視頻鏡頭集以及字幕集，并輸入多模態(tài)模型中，得到每類聲紋對應的人物標簽；

43、向量存儲模塊，用于根據(jù)所述視頻片段以及所述字幕片段，獲取關鍵幀向量以及字幕片段向量；以片段為單位，將所述關鍵幀向量、字幕片段向量、人物標簽、視頻片段、字幕片段、音頻片段及對應的時間戳存入向量數(shù)據(jù)庫；

44、意圖識別及問答模塊，用于基于所述視頻摘要對用戶輸入的問題進行意圖分析，根據(jù)分析結果調用所述向量數(shù)據(jù)庫進行視頻檢索及問題回答。

45、最后，本發(fā)明實施例還提供了一種存儲介質，所述存儲介質為非易失性計算機可讀存儲介質，所述非易失性計算機可讀存儲介質存儲有至少一個程序，每個所述程序包括指令，所述指令當被終端執(zhí)行時，使所述終端執(zhí)行所述的一種基于多模態(tài)信息融合的視頻問答方法。

46、與現(xiàn)有技術相比，本發(fā)明實施例提供的一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質，具有如下有益效果：

47、本發(fā)明通過對音視頻信息進行拆分處理，結合多模態(tài)模型對語音、視頻、文本等信息進行綜合分析，實現(xiàn)了對視頻內容的準確理解和高效檢索。音視頻通道拆分以獲取視頻信息和音頻信息；通過多模態(tài)大模型生成視頻摘要；利用語音識別技術將音頻轉換為文本字幕；根據(jù)字幕文本對視頻和音頻按句切分；使用聲紋識別模型處理音頻片段獲得聲紋向量并聚類以區(qū)分不同的說話人；結合多模態(tài)模型獲取說話人的相關信息進行人物標記；抽取視頻關鍵幀并進行向量化；將語音向量、視頻向量及其它元數(shù)據(jù)打包存入向量數(shù)據(jù)庫；最后，根據(jù)用戶輸入的問題進行意圖識別，并通過多模態(tài)大模型進行問答。

48、這種方法不僅能夠提高視頻檢索的準確性，還能夠在用戶提問時根據(jù)特定發(fā)言人的內容提供更加詳細和準確的回答，有效提高視頻檢索的準確性和用戶體驗。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王光鑫,李雪,陳其賓,姜凱,李銳
技術所有人：山東浪潮科學研究院有限公司
我是此專利的發(fā)明人

上一篇：一種基于AI的燃料合同自動結算方法與流程
上一篇：一種用于粉末涂料加工過篩設備及其使用方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多源信息融合技術相關技術

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于多模態(tài)信息融合的視頻問答方法、系統(tǒng)及介質與流程