本發(fā)明涉及計(jì)算機(jī)視覺,尤其是涉及一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法及系統(tǒng)。
背景技術(shù):
1、近年來,自動(dòng)駕駛技術(shù)備受矚目,精確感知復(fù)雜交通場景以及確保自動(dòng)駕駛車輛的安全可靠性在很大程度上依賴于目標(biāo)物體的精確三維定位。目前主流的?3d?檢測任務(wù)根據(jù)輸入的差異可分為四個(gè)不同組:點(diǎn)云作為輸入、立體視圖作為輸入、單目圖像作為輸入和基于多模態(tài)的輸入。
2、作為業(yè)界追捧的?lidar?探測器,能夠直接反饋周圍環(huán)境的深度信息,在效率和精度之間取得良好平衡。然而,其部署成本高、點(diǎn)云稀疏且缺乏語義信息等缺點(diǎn)限制了應(yīng)用。相比之下,基于雙目相機(jī)的方法在提供豐富密集像素紋理的同時(shí),具有部署成本低的優(yōu)勢,能夠方便地進(jìn)行目標(biāo)檢測和分類,在遠(yuǎn)距離目標(biāo)檢測和基于視覺的道路元素(如交通燈、交通線和人行道)識(shí)別方面具有天然優(yōu)勢。但依賴于雙目照相機(jī)的?3d?對(duì)象檢測器面臨的主要挑戰(zhàn)是與深度估計(jì)相關(guān)的固有不準(zhǔn)確性,這導(dǎo)致與基于?lidar?的探測器相比存在巨大性能差距。lidar?點(diǎn)云可提供精確定位并捕獲三維空間信息,成為雙目相機(jī)執(zhí)行檢測任務(wù)的有價(jià)值參考。
3、在此背景下,涌現(xiàn)出一批優(yōu)秀的跨知識(shí)蒸餾(kd)作品,開始探索將?lidar?點(diǎn)云添加到三維物體檢測中以提高立體性能,一些作品將?lidar?信號(hào)投影到圖像平面上,并使用對(duì)象級(jí)和場景級(jí)提取來將知識(shí)從?lidar?教師檢測器轉(zhuǎn)移到基線模型中;另一項(xiàng)研究采用x分量-?kd法進(jìn)行回歸分析,采用交叉錨點(diǎn)logit?-?kd法進(jìn)行響應(yīng)水平的分類,以彌合立體和lidar方法之間的差距,最近的工作介紹了一種用于在?3d?體素空間內(nèi)模態(tài)變換的知識(shí)提取同時(shí)保持各個(gè)檢測器結(jié)構(gòu)的技術(shù),但目前在這方面存在兩個(gè)技術(shù)難題:一是?bev(bird-?eye?-?view)作為一種常見的環(huán)境場景表示方法,能夠明顯顯示目標(biāo)物體的尺度和位置,但在上述工作中還未得到有效應(yīng)用;二是這些方法都側(cè)重于提取前景區(qū)域中的重要信息,而忽略了背景中包含的重要線索,現(xiàn)階段需要一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法及系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決雙目視圖檢測器性能相對(duì)較低和三維頭部分類任務(wù)中的前景和背景不平衡的問題,本發(fā)明提供一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法及系統(tǒng)。本發(fā)明通過知識(shí)蒸餾的方法,將高性能的lidar教師網(wǎng)絡(luò)中的知識(shí)遷移到基于雙目檢測器的立體學(xué)生網(wǎng)絡(luò)中,以提高雙目3d目標(biāo)檢測的性能。
2、第一方面,本發(fā)明提供的一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法,采用如下的技術(shù)方案:
3、一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法,包括:
4、獲取原始數(shù)據(jù),包括獲取立體圖像和原始點(diǎn)云數(shù)據(jù);
5、基于獲取的原始數(shù)據(jù)進(jìn)行特征提取,包括將原始數(shù)據(jù)的三維特征進(jìn)行縮放和特征映射,并傳遞至卷積層將其劃分為兩個(gè)特征圖;
6、根據(jù)劃分的特征圖進(jìn)行特征增強(qiáng)網(wǎng)絡(luò)的構(gòu)建,包括構(gòu)建上層分支和下層分支,并將上、下層分支進(jìn)行級(jí)聯(lián)操作,完成特征增強(qiáng)網(wǎng)絡(luò)的構(gòu)建;
7、利用特征增強(qiáng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)保持提取,包括利用特征增強(qiáng)網(wǎng)絡(luò)分別對(duì)教師模型和學(xué)生模型的實(shí)例進(jìn)行歸一化處理,利用歸一化處理定義相關(guān)性蒸餾損失;
8、根據(jù)結(jié)構(gòu)保持提取進(jìn)行解耦分類頭知識(shí)蒸餾,包括將logit?kd方法進(jìn)行解耦為目標(biāo)分類蒸餾和非目標(biāo)分類蒸餾,通過kl散度來計(jì)算目標(biāo)分類蒸餾損失和非目標(biāo)分類蒸餾損失;
9、根據(jù)解耦分類頭知識(shí)蒸餾定義損失函數(shù)。
10、進(jìn)一步地,所述構(gòu)建上層分支和下層分支,包括將特征圖的空間維數(shù)進(jìn)行壓縮得到統(tǒng)計(jì)量z,利用降維層將特征維度進(jìn)行降維,之后利用relu激活函數(shù)對(duì)降維后的特征進(jìn)行處理,最后利用并通過增維層對(duì)降維后的特征維度從進(jìn)行恢復(fù),根據(jù)sigmoid激活函數(shù)對(duì)增維后的特征進(jìn)行處理,得到注意力權(quán)重,通過特征圖與注意力權(quán)重的逐元素乘法得到上分支的最終輸出。
11、進(jìn)一步地,所述構(gòu)建上層分支和下層分支,還包括根據(jù)獲得的特征圖進(jìn)行最大池化和平均池化操作,并將池化后的結(jié)果進(jìn)行拼接,利用卷積層對(duì)拼接后的結(jié)果進(jìn)一步提取特征,接著使用sigmoid函數(shù)計(jì)算注意力圖,通過將注意力圖與輸入特征圖進(jìn)行逐元素乘法,得到輸出加權(quán)后的特征圖,所述計(jì)算注意力圖公式為:
12、,
13、其中,表示激活函數(shù),表示對(duì)輸入特征圖進(jìn)行最大池化操作,表示對(duì)輸入特征圖進(jìn)行平均池化操作,表示將最大池化和平均池化的結(jié)果進(jìn)行拼接,表示7×7內(nèi)核的卷積層。
14、進(jìn)一步地,所述利用特征增強(qiáng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)保持提取,包括對(duì)教師模型和學(xué)生模型的實(shí)例分別進(jìn)行重塑,將原始的三維張量轉(zhuǎn)換為二維張量,基于重塑后的實(shí)例進(jìn)行相似性矩陣的計(jì)算,并通過l2歸一化將矩陣的每一行向量歸一化為單位長度。
15、進(jìn)一步地,所述利用特征增強(qiáng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)保持提取,還包括基于教師模型和學(xué)生模型的l2歸一化結(jié)果定義損失函數(shù),所述損失函數(shù)的計(jì)算公式為:
16、,
17、其中,表示為歸一化系數(shù),表示為教師模型和學(xué)生模型的相似性矩陣之差,表示frobenius范數(shù)。
18、進(jìn)一步地,所述根據(jù)結(jié)構(gòu)保持提取進(jìn)行解耦分類頭知識(shí)蒸餾,包括通過atss頭選擇的所有樣本位置的個(gè)數(shù),根據(jù)樣本個(gè)數(shù)對(duì)教師模型輸出概率圖和學(xué)生模型輸出概率圖?的維度進(jìn)行重塑,得到和?,利用softmax函數(shù)分別對(duì)重塑的和?進(jìn)行歸一化處理,得到同一目標(biāo)對(duì)象所有錨點(diǎn)的置信度分布。
19、進(jìn)一步地,所述根據(jù)解耦分類頭知識(shí)蒸餾定義損失函數(shù),包括根據(jù)解耦分類頭知識(shí)蒸餾損失和結(jié)構(gòu)保持蒸餾損失構(gòu)建整體損失函數(shù),并以端到端的方式不斷調(diào)整sim-distnet模型參數(shù),所述整體損失函數(shù)表達(dá)式為:
20、,
21、其中,表示為任務(wù)損失,表示為結(jié)構(gòu)保持蒸餾損失,解耦分類頭知識(shí)蒸餾損失。
22、第二方面,一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測系統(tǒng),包括:
23、數(shù)據(jù)獲取模塊,被配置為:獲取原始數(shù)據(jù),包括獲取立體圖像和原始點(diǎn)云數(shù)據(jù);
24、特征提取模塊,被配置為:基于獲取的原始數(shù)據(jù)進(jìn)行特征提取,包括將原始數(shù)據(jù)的三維特征進(jìn)行縮放和特征映射,并傳遞至卷積層將其劃分為兩個(gè)特征圖;
25、特征增強(qiáng)模塊,被配置為:根據(jù)劃分的特征圖進(jìn)行特征增強(qiáng)網(wǎng)絡(luò)的構(gòu)建,包括構(gòu)建上層分支和下層分支,并將上、下層分支進(jìn)行級(jí)聯(lián)操作,完成特征增強(qiáng)網(wǎng)絡(luò)的構(gòu)建;
26、結(jié)構(gòu)保持模塊,被配置為:利用特征增強(qiáng)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)保持提取,包括利用特征增強(qiáng)網(wǎng)絡(luò)分別對(duì)教師模型和學(xué)生模型的實(shí)例進(jìn)行歸一化處理,利用歸一化處理定義相關(guān)性蒸餾損失;
27、蒸餾模塊,被配置為:根據(jù)結(jié)構(gòu)保持提取進(jìn)行解耦分類頭知識(shí)蒸餾,包括將logitkd方法進(jìn)行解耦為目標(biāo)分類蒸餾和非目標(biāo)分類蒸餾,通過kl散度來計(jì)算目標(biāo)分類蒸餾損失和非目標(biāo)分類蒸餾損失;
28、損失模塊,被配置為:根據(jù)解耦分類頭知識(shí)蒸餾定義損失函數(shù)。
29、第三方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條指令,所述指令適于由終端設(shè)備的處理器加載并執(zhí)行所述的一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法。
30、第四方面,本發(fā)明提供一種終端設(shè)備,包括處理器和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),處理器用于實(shí)現(xiàn)各指令;計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)用于存儲(chǔ)多條指令,所述指令適于由處理器加載并執(zhí)行所述的一種基于跨模態(tài)解耦知識(shí)轉(zhuǎn)移的三維目標(biāo)檢測方法。
31、綜上所述,本發(fā)明具有如下的有益技術(shù)效果:
32、1、本發(fā)明通過深度和空間?bev?特征增強(qiáng)(dsbfe)模塊,分別在上分支利用全局信息嵌入和excitation操作突出深度信息中的關(guān)鍵特征,在下分支使用最大池化、平均池化和卷積操作計(jì)算注意力圖來強(qiáng)調(diào)空間位置的重要性。這種多維度的特征增強(qiáng)能夠更全面地提取和突出3d場景中的目標(biāo)特征,使得模型在分類任務(wù)中更關(guān)注前景目標(biāo)的同時(shí),也不忽視背景信息的作用,從而提高目標(biāo)檢測的準(zhǔn)確性。
33、2、本發(fā)明采用結(jié)構(gòu)保持蒸餾(loss_spd)和解耦分類頭知識(shí)蒸餾(loss_(dch?-kd)),使學(xué)生模型能夠從教師模型中學(xué)習(xí)到更豐富的特征表示和分類知識(shí)。尤其是解耦分類頭知識(shí)蒸餾將目標(biāo)分類和非目標(biāo)分類分別考慮,能夠更精細(xì)地調(diào)整學(xué)生模型的分類能力,進(jìn)一步提高目標(biāo)檢測的準(zhǔn)確性。
34、3、本發(fā)明將分類頭知識(shí)蒸餾解耦為目標(biāo)分類蒸餾(tcd)和非目標(biāo)分類蒸餾(ncd),對(duì)于?tcd,只提供對(duì)目標(biāo)類的預(yù)測,能夠更集中地學(xué)習(xí)目標(biāo)類的特征;對(duì)于?ncd,僅考慮非目標(biāo)類之間的知識(shí)傳遞,有助于更好地理解背景信息,能夠有效地平衡前景和背景在分類任務(wù)中的權(quán)重。