本發(fā)明涉及圖像檢測,具體的說,是一種基于可變形注意力特征融合的小目標檢測方法。
背景技術:
1、在圖像檢測,尤其是圖像中小目標檢測領域,例如肺結節(jié)檢測,由于肺結節(jié)的直徑一般小于3cm,有些甚至只有幾毫米大小,因此在檢測中容易被忽略或者誤認為是正常結構。而且,由于肺結節(jié)形態(tài)多樣,呈現(xiàn)多尺度和多形態(tài),不規(guī)則且邊緣模糊,同時肺部組織本身含有大量細小的血管、支氣管,會給肺結節(jié)的檢測帶來干擾,這些是目前進行肺結節(jié)檢測精度較低的主要原因。
2、傳統(tǒng)的肺結節(jié)檢測方法主要基于人工提取的特征和分類器模型進行肺結節(jié)檢測和識別,主要有引入多尺度濾波器來增強和檢測肺結節(jié);基于區(qū)域生長算法進行肺結節(jié)檢測,有效提取肺結節(jié),并且能夠處理圖像中的噪聲和邊緣模糊等問題;以及引入機器學習算法中的隨機森林模型,通過分析圖像中的局部區(qū)域,提取和肺結節(jié)相關的特征;訓練決策樹來實現(xiàn)肺結節(jié)的識別和檢測等。這些方法易受人工因素的影響,并且對復雜結節(jié)的特征提取困難,存在很大的局限性。
3、隨著深度學習的發(fā)展,基于卷積神經網(wǎng)絡的方法也被引入了肺結節(jié)檢測領域。網(wǎng)絡結構一般基于二維卷積神經網(wǎng)絡和三維卷積神經網(wǎng)絡設計。三維的肺結節(jié)檢測算法能夠利用結節(jié)在三維空間中的上下文信息進行檢測,但是由于需要處理三維體積的數(shù)據(jù),存在模型訓練時間很長,對計算資源要求高,且模型參數(shù)量巨大,數(shù)據(jù)樣本需求大,容易過擬合等問題,導致檢測效果不佳。目前二維肺結節(jié)目標檢測算法都是基于深度學習的目標檢測網(wǎng)路,如兩階段的faster-rcnn系列和單階段的yolo系列。faster-rcnn框架應用于肺結節(jié)檢測,進行了候選區(qū)域生成網(wǎng)絡的優(yōu)化,采用了密集連接網(wǎng)絡進行特征提取,有效的傳遞和重用特征信息,但是由于網(wǎng)絡結構的復雜性,難以滿足肺結節(jié)檢測的實時性要求。在單階段肺結節(jié)檢測算法中,主要有引入注意力機制和多尺度特征融合方法,來自動學習圖像中的顯著區(qū)域,提升肺結節(jié)的檢測效果,但是沒有對提取的肺結節(jié)特征在融合之前做進一步處理、減少無關冗余特征對檢測結果的負面影響。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于可變形注意力特征融合的小目標檢測方法,用于解決現(xiàn)有技術中的檢測方法中存在對復雜結節(jié)特征提取困難、引入特征層融合時的冗余信息對檢測結果產生負面影響、難以滿足實時性檢測要求或檢測效果不佳的問題。
2、本發(fā)明通過下述技術方案解決上述問題:
3、一種基于可變形注意力特征融合的小目標檢測方法,包括:
4、步驟s100、獲取數(shù)據(jù)集并進行數(shù)據(jù)預處理;
5、步驟s200、構建基于可變形注意力機制的增強小目標肺結節(jié)檢測網(wǎng)絡模型;
6、步驟s300、訓練基于可變形注意力機制的增強小目標肺結節(jié)檢測網(wǎng)絡模型;
7、步驟s400、將待檢測圖像輸入訓練好的基于可變形注意力機制的增強小目標肺結節(jié)檢測網(wǎng)絡模型,輸出檢測結果。
8、進一步地,所述步驟s100具體包括:獲取肺結節(jié)目標檢測數(shù)據(jù)集,通過腐蝕和膨脹分割原始圖像中的肺部區(qū)域,再通過隨機旋轉、中心旋轉、平移、裁剪、尺寸縮放的方式對數(shù)據(jù)集進行數(shù)據(jù)增強。
9、具體地:
10、獲取肺結節(jié)ct圖像構成數(shù)據(jù)集;每張肺結節(jié)ct圖像包含胸部的多個軸向切片;
11、對肺結節(jié)ct圖像進行標簽類別標注,標簽類別包括非結節(jié)區(qū)、<a?mm結節(jié)區(qū)和>=amm的結節(jié)區(qū),a為設定的結節(jié)長度;優(yōu)選的,a取值為3。
12、根據(jù)結節(jié)所在位置的z軸坐標,獲取單個結節(jié)的二維切片,重新用數(shù)據(jù)集的標注格式進行標注,再進行數(shù)據(jù)格式轉換;
13、通過腐蝕和膨脹法對數(shù)據(jù)集進行了肺實質分割,僅保留整個肺部區(qū)域,得到圖片樣本,并劃分為訓練集、測試集和驗證集;
14、對訓練集進行mosaic數(shù)據(jù)增強、mixup數(shù)據(jù)增強和隨機裁剪、翻轉、縮放處理,最后使用k-means聚類算法對錨點anchor進行重新聚類,生成大小合適的錨點。
15、進一步地,所述步驟s200具體包括:
16、步驟s210、構建可變形注意力特征融合模塊,用于圖像的淺層特征和深層特征的針對性融合;
17、步驟s220、構建小目標檢測層,用于檢測目標的位置和類別信息。
18、在yolov7的基礎上改進基于可變形思想和自注意力結合的特征融合方式,增加小目標檢測層,構建增強小目標肺結節(jié)檢測網(wǎng)絡模型,模型具體包括:可變形注意力特征融合模塊,用于圖像的淺層特征和深層特征的針對性融合;小目標檢測層,用于補充微小肺結節(jié)的有效豐富空間信息。
19、進一步地,所述可變形注意力特征融合模塊包括淺層特征采樣模塊和注意力計算模塊,其中:
20、由偏移網(wǎng)絡構成淺層特征采樣模塊,偏移網(wǎng)絡對輸入的淺層特征x∈rh×w×c進行學習,其中h、w分別表示特征層的高度和寬度,c表示特征通道數(shù),得到4組大小為的偏移域,2為通道數(shù),表示每一個采樣點在x方向和y方向上的偏移變量,通過雙線性插值得到淺層特征采樣點
21、淺層特征層中感興點的提取,借助了可變形思想。由偏移網(wǎng)絡對輸入的淺層特征進行學習,得到多組采樣點的偏移變量,再通過雙線性插值的方式計算得出采樣點在淺層特征中的位置,最后將感興趣的特征點從淺層特征中提取出來。為了提高可變形采樣點的多樣性,為注意力機制提供不同層次的語義信息,本發(fā)明利用深度可分離卷積對特征通道進行分組,平均池化下采樣層調整采樣點的數(shù)量,最后調整通道數(shù),為每個組生成在x,y方向的偏移量。以輸入淺層特征x∈rh×w×c(h,w分別表示特征層的高度和寬度,c表示特征通道數(shù))為例,設置分組數(shù)量g為4。通過偏移網(wǎng)絡最終生成4組大小為的偏移域,通道數(shù)為2表示每一個采樣點在x方向和y方向上的偏移變量,最終通過雙線性插值得到采樣點
22、深層特征由網(wǎng)絡疊加層數(shù)更深計算得到,如采用四個elan層得到特征圖,上面的分辨率更高,最下面的分辨率更小,由于特征提取程度更高,所以下面的尺寸更小的即深層特征。
23、將采樣點和深層特征投入自注意力模塊進行注意力計算,注意力模塊參考一般的多頭注意力機制(multi-headed?self-attention?mechanism,msa)設計。采樣點的分組數(shù)和多頭注意力的頭數(shù)相對應,用x1∈rh×w×c表示輸入的深層特征,x2∈rhg×wg×c表示輸入的淺層特征采樣點,其中hg、wg分別表示特征層的高度和寬度,通過映射,將深層特征x1和采樣特征x2分別通過可訓練的變換矩陣wq、wk和wv,得到計算注意力所需的q,k,v,計算過程如下:
24、q(x1)=x1wq,k(x2)=x2wk,v(x2)=x2wv
25、其中wq、wk和wv都是需要學習的權重矩陣;
26、q:query(查詢):查詢向量用于獲取與其他向量的相關性。在注意力機制中,query表示我們關注的目標或需要進行比較的向量。
27、k:key(鍵)(k):鍵向量用于計算query和value之間的相似性。在注意力機制中,key用于衡量query與其他向量之間的關聯(lián)程度。
28、v:value(值)(v):值向量包含了需要根據(jù)query進行加權聚合的信息。在注意力機制中,value表示我們希望根據(jù)query的重要性q來加權聚合的向量。
29、根據(jù)設定的分組數(shù),將q、k、v按照分組數(shù)等分、得到每一個頭head1,head2,……,headh對應的qi,ki,vi,h為頭的數(shù)量,計算他們之間的注意力,計算注意力的公式如下:
30、
31、其中,qi、ki、vi分別對應query、key和value,qi將與每個ki匹配計算兩個向量間的相關性,相關性越大,對應得到的注意力權重也越大,dki表示向量ki的長度,最后,將vi與對應的注意力權重加權求和,得到注意力機制的輸出結果,然后將每組注意力加權的結果拼接,再通過可訓練的權重矩陣wz進行融合,得到最終的多組注意力結果:
32、multihead(q,k,v)=concatenate(head1,head2,...,headh)wz
33、
34、其中,concatenate(.)表示所有組沿著深度維度進行拼接。
35、進一步地,所述小目標檢測層的目標檢測頭由卷積層和線性層組成,先通過一個卷積層對輸入特征圖進行處理和特征提取,然后通過在不同尺度上應用池化操作實現(xiàn)在不同尺度上提取特征,捕捉不同大小的目標信息,再通過一個卷積層和兩個線形層,輸出四個特征層中每個特征點對應的預測邊界框坐標、類別置信度以及類別信息。
36、進一步地,還包括步驟s230:對目標檢測結果進行后處理操作,得到最終的目標檢測結果。
37、進一步地,所述后處理操作包括:
38、非極大值抑制去除重復檢測;
39、設置置信度閾值去除置信度較低的框;
40、再將每個保留下來的邊界框,根據(jù)預測出來的類別置信度,分配給對應的類別,得到最終的目標檢測結果。
41、進一步地,所述步驟s300中,基于步驟s100得到的數(shù)據(jù)集,基于輸入步驟s200中構建的增強小目標檢測網(wǎng)絡模型,進行肺結節(jié)檢測網(wǎng)絡模型的訓練,具體包括:
42、步驟s310、基于可變形注意力機制的增強小目標肺結節(jié)檢測網(wǎng)絡模型的分類損失和邊界框回歸損失均采用二元交叉熵損失函數(shù)及adam優(yōu)化器,超參數(shù)設置為:整初始學習率為0.0001,總迭代次數(shù)為3300次,batch?size為8,l2權重正則化為0.0005;每一輪的訓練保存最佳模型;其中,邊界框回歸損函數(shù)計算公式為:
43、
44、其中,c表示預測框和真實框的最小邊界矩形,b和bgt分別表示預測框和真實框的質心,ρ表示兩個質心間的歐式距離,wc、hc表示邊界矩形框c對應的寬度和高度,liou表示預測框和真實框的iou損失,wgt為真實框的寬度,hgt為真實框的高度;eiou損失函數(shù)分別計算對象框的長度和寬度,通過計算預測結果和實際結果之前的損失并通過反向傳播算法不斷優(yōu)化模型的參數(shù);
45、步驟s320、肺結節(jié)檢測性能評價指標采用精確率precision、召回率recall和平均精度ap,其中:
46、
47、
48、
49、其中,tp表示真陽性即正確識別的真陰影像素的總數(shù);fn表示假陰性即正確識別的真陰影像素的總數(shù);fp表示誤報即被錯誤識別為陰影像素的非陰影;tn表示真負數(shù)即正確識別的真非陰影像素的數(shù)量;
50、步驟s330、從數(shù)據(jù)集中獲取到的數(shù)據(jù)輸入至基于可變形注意力機制的增強小目標肺結節(jié)檢測網(wǎng)絡模型中,再利用反向傳播算法,進行模型訓練。
51、本發(fā)明與現(xiàn)有技術相比,具有以下優(yōu)點及有益效果:
52、(1)本發(fā)明針對尺寸較小目標特征集中于淺層特征中的特點,在特征融合金字塔中增加了四倍下采樣的檢測層,補充原本檢測層中遺漏的小目標的空間位置等信息,有助于提取和增強小目標的特征表示,提高小目標的檢測準確性。
53、(2)本發(fā)明構建了可變形注意力特征融合模塊,利用可變形卷積改善傳統(tǒng)卷積特征學習的局部性問題,有效提取淺層特征中關鍵特征,減少引入特征層融合時的冗余信息,特別是對小目標檢測異常關鍵的淺層特征層中大量的無關結構和背景信息,減少背景冗余特征的干擾,并且以注意力的方式增強特征融合效果,促進淺層特征和深層特征的有效融合,最大程度利用所學習的特征,提高小目標檢測的精度和準確率。
54、(3)本發(fā)明通過增加小目標檢測層,補充小目標豐富細節(jié)特征。