本技術涉及計算機,尤其涉及一種模型訓練方法、識別方法、裝置、設備、存儲介質及計算機程序產品。
背景技術:
1、隨著計算機技術的日益成熟,計算機技術應用也越來越廣泛。在計算機技術應用過程中,通常會產生大量的各種類型的數(shù)據(jù),如何對這些數(shù)據(jù)進行分析利用成為當前研究的課題。例如針對圖像處理,當前提出了借助于大量的圖像文本數(shù)據(jù)來覆蓋更多的目標檢測類別,使得目標檢測不再受限于帶標注即具有真實邊界框標簽的數(shù)據(jù)的少數(shù)類別,從而實現(xiàn)更加泛化的目標檢測,識別出更多的未知物體類別的開放詞匯目標檢測(open-vocabulary?object?detection,ovd),即在可見類(base?class)的數(shù)據(jù)上進行訓練,然后完成對不可見類(unseen/target?class)數(shù)據(jù)進行識別和檢測,得到最終結果。目前提出的開放詞匯目標檢測方案的一種實現(xiàn)算法為語言圖像關聯(lián)預訓練模型(grounded?language-image?pre-training,glip),實現(xiàn)視覺定位(grounding)任務即輸入圖片和對應的物體描述,輸出物體描述,同時實現(xiàn)了細粒度跨模態(tài)對齊的工作。
2、但是,上述實現(xiàn)過程中使用圖像編碼器對圖像進行編碼,使用文本編碼器對文本進行編碼,兩個圖像模態(tài)和文本模態(tài)之間沒有關聯(lián)關系,導致圖像模態(tài)和文本模態(tài)之間的數(shù)據(jù)風格差異較大時,上述實現(xiàn)方法的網絡的泛化能力較差,最終輸出結果誤差較大。
3、申請內容
4、為解決上述技術問題,本技術期望提供一種模型訓練方法、識別方法、裝置、設備、存儲介質及計算機程序產品,提出了一種開放詞匯目標檢測方案,提高了網絡的泛化能力,保證了輸出結果的可靠性。
5、本技術的技術方案是這樣實現(xiàn)的:
6、本技術提供一種模型訓練方法,所述方法包括:
7、獲取待訓練樣本數(shù)據(jù);其中,所述待訓練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應的文本標簽;
8、采用所述待訓練樣本數(shù)據(jù)對待訓練模型進行模型訓練,直至得到已訓練好的對象識別模型;其中,所述待訓練模型至少包括:對所述待訓練樣本數(shù)據(jù)進行文本特征和圖像特征進行融合處理的融合處理網絡,對所述待訓練樣本數(shù)據(jù)進行視覺分析的視覺主干網絡,和對所述待訓練樣本數(shù)據(jù)和融合處理網絡的輸出結果進行文本分析的文本主干網絡。
9、上述方案中,所述獲取待訓練樣本數(shù)據(jù),包括:
10、獲取第一圖像;
11、檢測所述第一圖像中包括的目標對象,確定包括至少一個所述目標對象的圖像區(qū)域,得到所述圖像樣本數(shù)據(jù);
12、確定針對所述第一圖像設置的所述文本標簽;其中,所述待訓練樣本數(shù)據(jù)包括所述圖像樣本數(shù)據(jù)和所述文本標簽。
13、上述方案中,所述采用所述待訓練樣本數(shù)據(jù)對待訓練模型進行模型訓練,包括:
14、輸入所述圖像樣本數(shù)據(jù)至所述視覺主干網絡,得到圖像分析結果;
15、獲取所述視覺主干網絡中的編碼模塊對所述圖像樣本數(shù)據(jù)進行編碼處理后輸出的第一圖像特征參數(shù);
16、輸入所述第一圖像特征參數(shù)和所述文本標簽至所述融合處理網絡,得到第一文本特征參數(shù);
17、輸入所述第一文本特征參數(shù)至所述文本主干網絡,得到文本分析結果;
18、基于所述文本分析結果和所述圖像分析結果,得到預測結果;
19、基于所述預測結果,對所述視覺主干網絡、所述文本主干網絡和所述融合處理網絡中的可變參數(shù)進行調整,得到訓練后的待訓練模型。
20、上述方案中,所述輸入所述第一圖像特征參數(shù)和所述文本標簽至所述融合處理網絡,得到第一文本特征參數(shù),包括:
21、通過預設連接符號將所述文本標簽中包括的至少一個標簽進行連接,得到待分析短語;
22、通過所述融合處理網絡設置的全局注意力池化層對所述第一圖像特征數(shù)據(jù)進行處理,得到第二圖像特征參數(shù);
23、基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù)。
24、上述方案中,所述基于所述待分析短語和所述第二圖像特征參數(shù),生成所述第一文本特征參數(shù),包括:
25、將所述待分析短語與可調整的學習文本特征參數(shù)進行拼接,得到待分析文本參數(shù);
26、通過語言提示詞生成器對所述第二圖像特征參數(shù)進行處理,得到條件線索參數(shù);
27、將所述待分析文本參數(shù)和所述條件線索參數(shù)相加,得到所述文本分析特征。
28、上述方案中,所述基于所述文本分析結果和所述圖像分析結果,得到預測結果,包括:
29、確定所述文本分析結果和所述圖像分析結果的相似度參數(shù);
30、基于所述相似度參數(shù)確定預測結果。
31、上述方案中,所述視覺主干網絡的每一圖像編碼層和對應的所述文本主干網絡的文本編碼層之間設置有跨模態(tài)多頭注意力模塊。
32、上述方案中,所述方法包括:
33、輸入第i圖像編碼層的第i圖像特征輸出和對應的第i文本編碼層的第i文本特征輸出輸入至所述跨模態(tài)多頭注意力模塊,得到第i注意力輸出;其中,i=0,1,2……,n,n為所述視覺主干網絡包括的圖像編碼層的數(shù)量;
34、確定所述第i注意力輸出與所述第i圖像特征輸出相加,得到第i+1圖像特征輸入;
35、確定所述第i注意力輸出與所述第i文本特征輸出相加,得到第i+1文本特征輸入;
36、輸入所述第i+1圖像特征輸入至第i+1圖像編碼層;
37、輸入所述第i+1文本特征輸入至第i+1文本編碼層。
38、上述方案中,所述視覺主干網絡中設置的注意力機制為組混合注意力。
39、本技術提供一種識別方法,所述方法包括:
40、獲取待識別對象;
41、通過已訓練好的對象識別模型進行識別,得到識別結果;其中,所述對象識別模型可以是通過如上述任一項所述的模型訓練方法進行訓練得到的。
42、本技術提供一種模型訓練裝置,所述裝置包括:第一獲取單元和模型訓練單元;其中:
43、所述第一獲取單元,用于獲取待訓練樣本數(shù)據(jù);其中,所述待訓練樣本數(shù)據(jù)包括圖像樣本數(shù)據(jù)和所述圖像樣本數(shù)據(jù)對應的文本標簽;
44、所述模型訓練單元,用于采用所述待訓練樣本數(shù)據(jù)對待訓練模型進行模型訓練,直至得到已訓練好的對象識別模型;其中,所述待訓練模型至少包括:對所述待訓練樣本數(shù)據(jù)進行文本特征和圖像特征進行融合處理的融合處理網絡,對所述待訓練樣本數(shù)據(jù)進行視覺分析的視覺主干網絡,和對所述待訓練樣本數(shù)據(jù)和所述融合處理網絡的輸出結果進行文本分析的文本主干網絡。
45、本技術提供一種識別裝置,所述裝置包括:第二獲取單元和識別單元;其中:
46、所述第二獲取單元,用于獲取待識別對象;
47、所述識別單元,用于通過已訓練好的對象識別模型進行識別,得到識別結果;其中,所述對象識別模型可以通過上述所述的模型訓練裝置訓練得到。
48、本技術提供一種模型訓練設備,所述設備至少包括:第一存儲器、第一處理器和第一通信總線;其中:
49、所述第一存儲器,用于存儲可執(zhí)行指令;
50、所述第一通信總線,用于實現(xiàn)所述第一處理器和所述第一存儲器之間的通信連接;
51、所述第一處理器,用于執(zhí)行所述第一存儲器中存儲的模型訓練程序,實現(xiàn)如上述任一項所述的模型訓練方法的步驟。
52、本技術提供一種識別設備,所述設備至少包括:第二存儲器、第二處理器和第二通信總線;其中:
53、所述第二存儲器,用于存儲可執(zhí)行指令;
54、所述第二通信總線,用于實現(xiàn)所述第二處理器和所述第二存儲器之間的通信連接;
55、所述第二處理器,用于執(zhí)行所述第二存儲器中存儲的識別程序,實現(xiàn)如上述所述的識別方法的步驟。
56、本技術提供一種存儲介質,所述存儲介質上存儲有模型訓練程序,所述模型訓練程序被執(zhí)行時用于實現(xiàn)如上述任一項所述的模型訓練方法的步驟,或所述存儲介質上存儲有識別程序,所述識別程序被執(zhí)行時用于實現(xiàn)如上述所述的識別方法的步驟。
57、本技術提供一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如上述任一項所述的方法的步驟。
58、本技術實施例提供了一種模型訓練方法、識別方法、裝置、設備、存儲介質及計算機程序產品,通過模型訓練設備獲取待訓練樣本數(shù)據(jù)后,采用待訓練樣本數(shù)據(jù)對待訓練模型進行模型訓練,直至得到已訓練好的對象識別模型,然后識別設備獲取待識別對象后,通過已訓練好的對象識別模型進行識別,得到識別結果。這樣,通過對具有文本特征和圖像特征進行融合處理的融合處理網絡、進行視覺分析的視覺主干網絡和進行文本分析的文本主干網絡的待訓練模型進行模型訓練,得到已訓練好的對象識別模型,實現(xiàn)樣本的文本特征和圖像特征綜合考慮識別,解決了目前輸入樣本導致開放詞匯目標檢測方案的實現(xiàn)網絡的泛化能力較差的問題,提出了一種開放詞匯目標檢測方案,提高了網絡的泛化能力,保證了輸出結果的可靠性。
技術實現(xiàn)思路