本發(fā)明屬于,具體涉及一種基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法及相關(guān)裝置。
背景技術(shù):
1、隨著近年來人們拍攝視頻的需求更多、傳輸視頻的速度更快、存儲視頻的空間更大,多種場景下積累了大量的視頻數(shù)據(jù),需要一種有效地對視頻進(jìn)行管理、分析和處理的工具。視頻理解旨在通過智能分析技術(shù),自動化地對視頻中的內(nèi)容進(jìn)行識別和解析。視頻理解算法順應(yīng)了這個(gè)時(shí)代的需求。因此,近年來受到了廣泛關(guān)注,取得了快速發(fā)展。在視頻監(jiān)控、汽車自動駕駛等眾多應(yīng)用需求的推動下,時(shí)空動作檢測(spatial-temporal?actiondetection,stad)成為視頻理解中的一個(gè)重要研究領(lǐng)域。動作類別的多樣性和定位準(zhǔn)確性是時(shí)空動作檢測任務(wù)面臨的兩大難點(diǎn),前者要求算法能夠區(qū)分并識別出視頻中多樣化的動作類型,后者則強(qiáng)調(diào)算法在復(fù)雜背景中精確鎖定動作發(fā)生位置的能力。因此,提取更精準(zhǔn)和豐富的時(shí)空表示信息并實(shí)現(xiàn)任務(wù)的整體優(yōu)化,成為解決這項(xiàng)任務(wù)的關(guān)鍵所在?,F(xiàn)有的技術(shù)通過設(shè)置分類頭和檢測頭對提取的特征進(jìn)行處理,但在設(shè)計(jì)損失函數(shù)時(shí)直接考慮整體任務(wù)的效果,沒有獨(dú)立的考慮分類和檢測的效果,因此,如何設(shè)置損失函數(shù),使兩個(gè)子任務(wù)更有效的結(jié)合是一個(gè)難點(diǎn)。
2、此外,視頻數(shù)據(jù)具有數(shù)據(jù)量大、動作多樣、檢測目標(biāo)多等特點(diǎn),這一領(lǐng)域的關(guān)鍵挑戰(zhàn)之一是如何建模視頻中的時(shí)空信息,因此選擇有效的算法用到視頻理解中,成為了重要問題。目前,研究人員已經(jīng)提出了許多基于卷積神經(jīng)網(wǎng)絡(luò)的方法,這些方法表現(xiàn)出了優(yōu)秀的性能。然而,這種直接基于卷積神經(jīng)網(wǎng)絡(luò)的方案,對視頻的時(shí)序特征的建模能力相當(dāng)有限,無法有效的捕獲長時(shí)序特征。
3、時(shí)空動作檢測旨在對視頻中出現(xiàn)的動作進(jìn)行分類,并在空間和時(shí)間上進(jìn)行定位?,F(xiàn)有的技術(shù)通過設(shè)置分類頭和檢測頭對提取的特征進(jìn)行處理,但在設(shè)計(jì)損失函數(shù)時(shí)直接考慮整體任務(wù)的效果,沒有獨(dú)立的考慮分類和檢測的效果。此外,視頻數(shù)據(jù)具有數(shù)據(jù)量大、動作多樣、檢測目標(biāo)多等特點(diǎn),這一領(lǐng)域的關(guān)鍵挑戰(zhàn)之一是如何建模視頻中的時(shí)空信息。根據(jù)transformer模型的特點(diǎn),許多研究人員在任務(wù)中引入3d?transformer模型,可建立視頻的長序依賴,對現(xiàn)實(shí)應(yīng)用有著重要意義。在視頻數(shù)據(jù)處理的過程中,數(shù)據(jù)量和計(jì)算量過大仍然是現(xiàn)實(shí)存在的一個(gè)問題。而引入3d?transformer模型,會使得網(wǎng)絡(luò)變大,計(jì)算量激增,更難實(shí)現(xiàn)實(shí)時(shí)處理。除了模型本身的復(fù)雜性和計(jì)算需求外,數(shù)據(jù)量也對效率有著顯著的影響。大量的時(shí)空數(shù)據(jù)需要被讀取、解析和處理,這不僅增加了計(jì)算負(fù)擔(dān),還可能引發(fā)內(nèi)存和存儲空間的瓶頸問題。目前已有許多方法通過采樣和掩膜等方法嘗試減少視覺標(biāo)記以實(shí)現(xiàn)快速計(jì)算,但stad在準(zhǔn)確性和效率之間取得平衡仍然具有挑戰(zhàn)性。因此,輕量化視頻理解技術(shù)進(jìn)入我們的視野。在輕量化視頻理解中,如何在模型輕量化和計(jì)算量降低的情況下保證一個(gè)較好的精確度結(jié)果是我們目前所需實(shí)現(xiàn)的目標(biāo)。
4、目前,最相近的實(shí)現(xiàn)方案為yowov2。該模型采用yolov7的主干和特征金字塔(fpn)作為2d分支,從當(dāng)前幀中提取多層次的空間特征。并采用高效的3d卷積神經(jīng)網(wǎng)絡(luò)(cnn)作為3d分支,從視頻片段中提取時(shí)空特征進(jìn)行時(shí)空關(guān)聯(lián)。該模型的損失為置信度損失、分類損失和邊界框回歸損失按比例相加。
5、隨著深度神經(jīng)網(wǎng)絡(luò),特別是卷積神經(jīng)網(wǎng)絡(luò)和transformer的顯著發(fā)展,stad取得了許多重大進(jìn)展。許多模型采用雙流架構(gòu),將時(shí)空特征提取過程解耦為逐幀的rgb和光流數(shù)據(jù)的學(xué)習(xí),同時(shí)結(jié)合了外觀和運(yùn)動線索。為了解決上述方法忽略時(shí)間上下文關(guān)系的問題,其他方法將逐幀檢測擴(kuò)展為剪輯級檢測。這些方法輸入一個(gè)連續(xù)的幀組,直接推斷出動作的一系列邊界框。除了上述通過光流捕獲視頻中的運(yùn)動特征的方法外,由于動作的發(fā)生是一個(gè)連續(xù)的概念,最新的動作檢測器還利用3d?cnn和3d?transformer從視頻片段中提取時(shí)空信息,以準(zhǔn)確檢測動作。3d模型擁有強(qiáng)大的空間信息展示和交互性,能提供更直觀、豐富的視覺體驗(yàn)。然而,更大的骨干網(wǎng)和更復(fù)雜的架構(gòu)需要大量的計(jì)算需求,存在檢測速度差的問題,這使得它們無法實(shí)時(shí)運(yùn)行。除了模型本身的復(fù)雜性和計(jì)算需求外,數(shù)據(jù)量也對效率產(chǎn)生著顯著的影響。大量的時(shí)空數(shù)據(jù)需要被讀取、解析和處理,這不僅增加了計(jì)算負(fù)擔(dān),還可能引發(fā)內(nèi)存和存儲空間的瓶頸問題。目前已有許多方法通過采用輕量化模型或者對時(shí)空令牌進(jìn)行采樣和掩膜等方法嘗試減少視覺標(biāo)記以實(shí)現(xiàn)快速計(jì)算,這些方法雖然解決了現(xiàn)有技術(shù)的模型在計(jì)算上過于昂貴的問題,但在一定程度上使模型的效率和精度難以平衡。除此之外,現(xiàn)有模型在解決stad任務(wù)時(shí)僅簡單的將分類和定位的損失相加,沒有考慮各目標(biāo)之間的聯(lián)系,沒有考慮兩個(gè)子任務(wù)的最佳平衡。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于針對上述現(xiàn)有技術(shù)中的不足,提供一種基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法及相關(guān)裝置,用于解決現(xiàn)有模型效率和精度難以平衡的技術(shù)問題,利用輕量化結(jié)構(gòu)提取時(shí)空信息,再基于多任務(wù)學(xué)習(xí)思想獲取最終分類和定位結(jié)果。
2、本發(fā)明采用以下技術(shù)方案:
3、基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法,包括以下步驟:
4、s1、基于已有視頻數(shù)據(jù),獲取待處理視頻幀組及其標(biāo)簽,并對待處理視頻幀進(jìn)行預(yù)處理;
5、s2、構(gòu)建包含時(shí)空特征提取網(wǎng)絡(luò)對、構(gòu)造器和輕量融合模塊的訓(xùn)練模型;
6、s3、使用步驟s2得到的訓(xùn)練模型對步驟s1得到的待處理視頻數(shù)據(jù)進(jìn)行訓(xùn)練,提取待處理視頻的時(shí)空特征,得到最終預(yù)測和邊界框;
7、s4、對步驟s3得到的時(shí)空特征上采用多任務(wù)學(xué)習(xí)思想定義損失函數(shù),實(shí)現(xiàn)分類和定位任務(wù)。
8、優(yōu)選地,步驟s1具體為:
9、s101、獲取視頻幀組x,以及幀xi的標(biāo)簽,即目標(biāo)框和運(yùn)動類別;
10、s102、對視頻幀組x進(jìn)行數(shù)據(jù)增強(qiáng),得到幀組x′;
11、s103、對幀組x′中的后t-1幀應(yīng)用幀間差分法,獲取視頻的運(yùn)動趨勢,并按比例和經(jīng)過背景減法處理的第一幀相加,得到數(shù)據(jù)x″。
12、優(yōu)選地,設(shè)共需t個(gè)幀,視頻幀組x為:
13、x={xi,xi-d,…,xi-(t-2)*d,xi-(t-1)*d}
14、其中,d為采樣頻率。
15、優(yōu)選地,步驟s2中,時(shí)空特征提取網(wǎng)絡(luò)對包括:
16、空間特征提取模塊,包括二維的卷積神經(jīng)網(wǎng)絡(luò)darknet;
17、時(shí)空特征提取模塊,為一個(gè)二維的自適應(yīng)采樣階梯transformer,包括卷積干、mobilenetv2、擠壓激勵(lì)塊和輕量階梯自注意力塊;
18、構(gòu)造器,包括不同步長的反卷積和線性插值;
19、輕量融合模塊,采用通道融合+注意力機(jī)制的方案,包括普通卷積、深度可分離卷積、注意力機(jī)制、批量歸一化層和非線性激活層leakyrelu。
20、優(yōu)選地,步驟s3具體為:
21、s301、將xs輸入進(jìn)darknet中,提取特征
22、s302、將x″輸入進(jìn)ltas中,提取特征
23、s303、將特征fs和ft輸入到constructor中,獲得4d特征組f′s和f′t;
24、s304、將4d特征組f′s和f′t輸入到lfm中,提取特征
25、s305、檢測頭為一層普通的1×1的卷積,輸入提取的特征f,得到最終的預(yù)測na是錨框的數(shù)量,nc是動作類別的數(shù)量,1是邊界框的置信度,4是邊界框的坐標(biāo)偏移量(tx,ty,tw,th);
26、s306、解耦邊界框的坐標(biāo)。
27、優(yōu)選地,步驟s4具體為:
28、s401、定義各部分的損失函數(shù),共包含置信度損失、類別損失,以及邊界框回歸損失三部分;
29、s402、根據(jù)多任務(wù)學(xué)習(xí)思想定義總損失函數(shù),總損失函數(shù)包括目標(biāo)框檢測損失和動作類別分類損失。
30、優(yōu)選地,置信度損失lconf、類別損失lcls和邊界框?qū)捀呋貧w損失lwh如下:
31、
32、其中,n為預(yù)測框的個(gè)數(shù),s為網(wǎng)格的尺寸,λobj和λnoobj是懲罰因子,為網(wǎng)格i中的邊界框j含有目標(biāo)則為1,不含則為0,cj為中心點(diǎn)坐標(biāo),為網(wǎng)格i中的邊界框j含有目標(biāo)則為0,不含則為1,lfocal為一種針對類別不平衡問題進(jìn)行設(shè)計(jì)的損失函數(shù),aj為目標(biāo)類別,l1,smooth為光滑之后的l1范數(shù)損失函數(shù),為邊界框的寬,為邊界框的高。
33、第二方面,本發(fā)明實(shí)施例提供了一種基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測系統(tǒng),包括:
34、預(yù)處理模塊,基于已有視頻數(shù)據(jù),獲取待處理視頻幀組及其標(biāo)簽,并對待處理視頻幀進(jìn)行預(yù)處理;
35、構(gòu)建模塊,構(gòu)建包含時(shí)空特征提取網(wǎng)絡(luò)對、構(gòu)造器和輕量融合模塊的訓(xùn)練模型;
36、訓(xùn)練模塊,使用訓(xùn)練模型對待處理視頻數(shù)據(jù)進(jìn)行訓(xùn)練,提取待處理視頻的時(shí)空特征,得到最終預(yù)測和邊界框;
37、檢測模塊,對時(shí)空特征上采用多任務(wù)學(xué)習(xí)思想定義損失函數(shù),實(shí)現(xiàn)分類和定位任務(wù)。
38、第三方面,一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法的步驟。
39、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法的步驟。
40、與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果:
41、基于多任務(wù)學(xué)習(xí)輕量化transformer的時(shí)空動作檢測方法,能夠通過2dcnn和具有令牌采樣的輕量化transformer進(jìn)行空間信息與時(shí)序信息提取,然后用構(gòu)造器構(gòu)造4維特征并采用輕量多層特征融合模塊融合不同層特征進(jìn)行分類和定位,最后將分類和定位的結(jié)果用基于多任務(wù)學(xué)習(xí)的損失提升任務(wù)的整體性能。
42、進(jìn)一步的,通過已有的視頻數(shù)據(jù),獲取待處理視頻幀組及其標(biāo)簽,并對待處理視頻幀組進(jìn)行預(yù)處理。由于視頻幀數(shù)多,背景信息較為冗余,通過幀間差分以及背景減法來獲取主要時(shí)序特征信息。
43、進(jìn)一步的,采用2d?cnn和具有令牌采樣的輕量化transformer進(jìn)行空間信息與時(shí)序信息提取,輸入構(gòu)造器構(gòu)造4維特征再輸入輕量多層特征融合層進(jìn)行特征融合,輕量化結(jié)構(gòu)降低參數(shù)數(shù)量,令牌采樣減少輸入數(shù)據(jù)量,增加了模型效率和泛化能力。
44、進(jìn)一步的,采用不同步長的反卷積和線性插值,捕捉被深層網(wǎng)絡(luò)丟失的信息,有效提取了圖像的紋理和形狀信息,增強(qiáng)了模型的魯棒性,使模型能夠更好的適應(yīng)復(fù)雜多變的實(shí)際場景。
45、進(jìn)一步的,采用輕量融合模塊對特征進(jìn)行融合,深度可分離卷積可以顯著減少模型的計(jì)算量和參數(shù),通道注意力允許模型對不同通道賦予不同的權(quán)重,從而強(qiáng)調(diào)或抑制某些特征,使模型更好地聚焦于輸入數(shù)據(jù)的重要特征。
46、進(jìn)一步的,通過訓(xùn)練學(xué)習(xí)如何從視頻數(shù)據(jù)中提取關(guān)鍵的時(shí)空特征,并將其轉(zhuǎn)化為動作檢測的預(yù)測結(jié)果和邊界框,從而實(shí)現(xiàn)了模型的監(jiān)督學(xué)習(xí)和迭代優(yōu)化。
47、進(jìn)一步的,采用基于多任務(wù)學(xué)習(xí)思想的損失函數(shù),這個(gè)損失函數(shù)不僅融合了分類和定位兩個(gè)任務(wù)的損失,還考慮了它們之間的平衡與優(yōu)化,能夠更加全面地捕捉數(shù)據(jù)的多樣性和任務(wù)的復(fù)雜性,從而實(shí)現(xiàn)更高效、更準(zhǔn)確的模型訓(xùn)練。
48、可以理解的是,上述第二方面至第四方面的有益效果可以參見上述第一方面中的相關(guān)描述,在此不再贅述。
49、綜上所述,本發(fā)明通過輕量化結(jié)構(gòu)提取時(shí)空信息,克服傳統(tǒng)方法利用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或3d?transformer的缺點(diǎn),采用輕量化2d?transformer的方法,降低了模型參數(shù)數(shù)量。并且采用特征重構(gòu)和多任務(wù)學(xué)習(xí)思想,達(dá)到了效率和精度的平衡。
50、下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。