本發(fā)明屬于圖像目標(biāo)檢測,涉及一種基于yolov9和擴(kuò)散模型的輸電線路異物檢測方法。
背景技術(shù):
1、各種輸電線路遍布在居民區(qū)、鐵路網(wǎng)等地方,容易被氣球、風(fēng)箏、鳥巢等異物附著,從而影響到輸電線路的電力傳輸。為了防止發(fā)生這些事故,及時發(fā)現(xiàn)輸電線路上的異物是重中之重。如果僅用傳統(tǒng)人工的方式來查看輸電線路是否存在異物將會是巨大的工程,隨著深度學(xué)習(xí)在計算機(jī)視覺中的目標(biāo)檢測領(lǐng)域的發(fā)展,其分為了兩階段目標(biāo)檢測方法和單階段目標(biāo)檢測方法,均可部署到邊緣設(shè)備,通過目標(biāo)檢測算法結(jié)合邊緣設(shè)備來識別復(fù)雜繁多的輸電線路上的異物會更加適合。
2、其中,兩階段目標(biāo)檢測方法雖然精度更高,但是耗費(fèi)算力更大,推理很慢,由于邊緣設(shè)備本身算力小,會導(dǎo)致推理速度以及精度都會急劇降低,若推理速度慢,就不能夠及時發(fā)現(xiàn)輸電線路的異物,若檢測精度低,會導(dǎo)致檢測的異物不準(zhǔn)確,甚至無法檢測出異物,都會使得輸電線路安全性降低。而單階段目標(biāo)檢測方法,如yolov9算法,由于其實時性以及端到端的特性,相對于兩階段目標(biāo)檢測方法,推理速度快,算力要求更低。但使用yolov9算法部署到邊緣設(shè)備仍會有算力不足的問題,導(dǎo)致推理效果不好;并且輸電線路異物數(shù)據(jù)集收集繁瑣且數(shù)據(jù)量少,需要補(bǔ)充大量數(shù)據(jù)集來訓(xùn)練模型。
3、由于輸電線路的異物本身出現(xiàn)的概率低、情況少,收集數(shù)據(jù)集時困難,會使得訓(xùn)練數(shù)據(jù)集也較少,而yolo系列(包括yolov9)的模型都比較復(fù)雜,如果訓(xùn)練數(shù)據(jù)集較少,會導(dǎo)致模型過擬合,所以需要數(shù)據(jù)增強(qiáng)來加強(qiáng)模型的訓(xùn)練。但傳統(tǒng)的剪切、粘貼、mosaic等數(shù)據(jù)增強(qiáng)方法都會丟失圖像本身的真實性,使模型無法學(xué)習(xí)到真實特征;也有使用生成對抗網(wǎng)絡(luò)(gan)生成圖像進(jìn)行數(shù)據(jù)增強(qiáng)的方式,但是生成對抗網(wǎng)絡(luò)(gan)由于其訓(xùn)練模型時不穩(wěn)定,生成的圖像容易良莠不齊,并且沒有多樣性。
4、而文生圖擴(kuò)散模型由于其穩(wěn)定、生成的圖像真實以及可根據(jù)文本標(biāo)簽生成同類別的其他物體的特性,可用于作為數(shù)據(jù)增強(qiáng)的方法來提升模型的泛化能力以及精度。因此,如何設(shè)計一個輕量化的實時目標(biāo)檢測網(wǎng)絡(luò)yolov9,并且利用文生圖擴(kuò)散模型生成效果真實的圖像來增強(qiáng)數(shù)據(jù),以實現(xiàn)在算力低的情況下還能夠達(dá)到輸電線路異物檢測的良好效果,這對輸電線路安全有重要意義。
5、由于實時檢測輸電線路異物的設(shè)備都為邊緣設(shè)備,由于邊緣設(shè)備本身算力低,而使用yolo系列(包括yolov9)算法需要兼顧推理速度、fps和精度的情況下仍需要足夠的算力,因此將部署到邊緣設(shè)備的模型進(jìn)行輕量化改進(jìn)是至關(guān)重要的。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于yolov9和擴(kuò)散模型的輸電線路異物檢測方法。
2、本發(fā)明通過下述技術(shù)方案來實現(xiàn)。
3、基于yolov9和擴(kuò)散模型的輸電線路異物檢測方法,包括以下步驟:
4、s1、獲取輸電線路異物圖像并進(jìn)行數(shù)據(jù)標(biāo)注,得到輸電線路異物圖像數(shù)據(jù)集;
5、s2、利用文生圖擴(kuò)散模型進(jìn)行多模態(tài)數(shù)據(jù)增強(qiáng),得到數(shù)據(jù)增強(qiáng)后的圖像數(shù)據(jù)集,并劃分為訓(xùn)練集及驗證集;
6、s3、使用公共數(shù)據(jù)集(coco2017)對改進(jìn)yolov9模型進(jìn)行預(yù)訓(xùn)練,得到最佳的預(yù)訓(xùn)練權(quán)重;
7、s4、將步驟s2所得訓(xùn)練集輸入預(yù)訓(xùn)練后的改進(jìn)yolov9模型進(jìn)行訓(xùn)練,每輪對驗證集進(jìn)行驗證,獲取效果最好的權(quán)重和超參數(shù),得到輸電線路異物檢測模型;
8、s5、將輸電線路異物檢測模型配置到邊緣設(shè)備上實現(xiàn)輸電線路異物檢測;
9、其中,所述改進(jìn)yolov9模型包括骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)和可編程梯度信息模塊;骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)依次連接構(gòu)成主分支,可編程梯度信息模塊連接骨干網(wǎng)絡(luò),可編程梯度信息模塊作為輔助分支,頸部網(wǎng)絡(luò)采用高層次篩選特征融合金字塔(hs-fpn);采用mobilenetv4-small網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),骨干網(wǎng)絡(luò)包括依次設(shè)置的mnv4-1模塊、mnv4-2模塊、mnv4-3模塊、mnv4-4模塊和mnv4-5模塊,其中mnv4-1模塊包含一個卷積歸一化模塊(convbn),mnv4-2模塊由連續(xù)兩個卷積歸一化模塊串聯(lián)而成,mnv4-3模塊由一個第一通用倒置瓶頸塊(uib1)、三個第二通用倒置瓶頸塊(uib2)及另一個第一通用倒置瓶頸塊(uib1)串聯(lián)而成,mnv4-4模塊由連續(xù)兩個第一通用倒置瓶頸塊(uib1)及四個通用倒置瓶頸塊(uib2)串聯(lián)而成,mnv4-5模塊由兩個卷積歸一化模塊(convbn)串聯(lián)而成。
10、進(jìn)一步優(yōu)選,文生圖擴(kuò)散模型包括語言模型、文本編碼器、圖像編碼器、圖文配對的多模態(tài)模型(clip)、變分自編碼器(vae)和u-net網(wǎng)絡(luò),變分自編碼器(vae)包括編碼器和解碼器,通過語言模型、文本編碼器和圖像編碼器對輸電線路異物圖像數(shù)據(jù)集進(jìn)行處理,得到對應(yīng)的文本特征向量和圖像特征向量,用于訓(xùn)練圖文配對的多模態(tài)模型,向訓(xùn)練后的圖文配對的多模態(tài)模型輸入異物的文本描述及背景的文本描述,生成文本編碼向量;將隨機(jī)矩陣輸入變分自編碼器(vae)的編碼器中生成潛在空間低維矩陣,將潛在空間低維矩陣、文本編碼向量、自定義的異物位置信息、背景初始信息、噪點強(qiáng)度輸入u-net網(wǎng)絡(luò)中進(jìn)行噪聲裁剪及合并操作,以及擴(kuò)散加噪操作和反向擴(kuò)散去噪操作,生成低維圖像矩陣,將低維圖像矩陣輸入變分自編碼器(vae)的解碼器之中進(jìn)行解碼,生成重構(gòu)圖像,重構(gòu)圖像和原有的輸電線路異物圖像組成數(shù)據(jù)增強(qiáng)后的圖像數(shù)據(jù)集。
11、進(jìn)一步優(yōu)選,訓(xùn)練圖文配對的多模態(tài)模型時,將文本特征向量及圖像特征向量構(gòu)建為圖像-文本對,計算圖像-文本對的相似度對比損失,用于訓(xùn)練圖文配對的多模態(tài)模型。
12、進(jìn)一步優(yōu)選,向訓(xùn)練后的圖文配對的多模態(tài)模型輸入異物的文本描述及背景的文本描述所構(gòu)成的文本信息t,通過圖文配對的多模態(tài)模型生成文本編碼向量zt={t1,?t2,…,tn,tbg?}?,其中,?t1,?t2,…,tn分別為第1,2,…,n條對異物的文本描述所對應(yīng)的文本編碼向量,tbg為背景的文本編碼向量。
13、進(jìn)一步優(yōu)選,生成低維圖像矩陣的過程為:
14、步驟1:給定自定義的異物位置信息以及固定的背景初始信息,其中分別為第1,2,…,m個異物的位置信息,m≤n,即一個異物至少有一條文本描述;將異物位置信息以及固定的背景初始信息輸入u-net網(wǎng)絡(luò)中生成異物位置噪聲信息zlm={zl1,?zl2,…,zlm}以及背景噪聲信息zbg,其中zl1,?zl2,…,zlm分別為第1,2,…,m個異物位置噪聲信息;?然后在背景噪聲信息上進(jìn)行異物位置噪聲信息的裁剪和合并操作,得到裁剪和合并之后的含有所有異物位置噪聲信息的噪聲?:
15、;
16、其中,為噪點強(qiáng)度;
17、步驟2:變分自編碼器(vae)的編碼器將輸入的隨機(jī)矩陣映射到潛在空間中得到潛在空間低維矩陣z,,其中為給定隨機(jī)矩陣時潛在空間低維矩陣??的條件概率分布,為編碼器生成的均值,為編碼器生成的標(biāo)準(zhǔn)差,為編碼器的參數(shù);
18、步驟3:將文本編碼向量zt、含有所有異物位置噪聲信息的噪聲和潛在空間低維矩陣輸入u-net網(wǎng)絡(luò),不斷執(zhí)行擴(kuò)散加噪過程和反向擴(kuò)散去噪過程,生成低維圖像矩陣。
19、進(jìn)一步優(yōu)選,頸部網(wǎng)絡(luò)使用的高層次篩選特征融合金字塔(hs-fpn)和三個repncspelan4特征融合模塊,?高層次篩選特征融合金字塔包括三個坐標(biāo)注意力機(jī)制模塊、兩個選擇性特征融合模塊,首先將mnv4-3模塊提取的8倍下采樣特征、mnv4-4模塊提取的16倍下采樣模塊及mnv4-5模塊提取的32倍下采樣模塊分別經(jīng)過三個坐標(biāo)注意力機(jī)制模塊消除冗余數(shù)據(jù),壓縮特征,然后分別經(jīng)過1×1卷積層改變通道數(shù),分別得到低級特征、中級特征和高級特征;
20、高級特征通過其中一個repncspelan4特征融合模塊進(jìn)行特征融合之后得到第一個輸出特征;
21、通過其中一個選擇性特征融合模塊將高級特征和中級特征融合,然后經(jīng)過一個repncspelan4特征融合模塊進(jìn)行特征融合之后得到第二個輸出特征;
22、通過另一個選擇性特征融合模塊將高級特征和低級特征融合,然后經(jīng)過一個repncspelan4特征融合模塊進(jìn)行特征融合之后得到第三個輸出特征。
23、進(jìn)一步優(yōu)選,對于mobilenetv4-small網(wǎng)絡(luò)的參數(shù)設(shè)計采用兩階段神經(jīng)搜索架構(gòu)(tu-nas),分別確定最佳卷積核尺寸和通用倒置瓶頸塊(uib)配置。
24、進(jìn)一步優(yōu)選,對卷積歸一化模塊進(jìn)一步改進(jìn),改進(jìn)后的卷積歸一化模塊包括普通卷積和深度可分離卷積,首先通過普通卷積提取到圖像的特征,然后使用深度可分離卷積進(jìn)行空間特征的再次提取,然后將提取到的特征通道進(jìn)行拆分成兩部分,一部分不變,另一部分進(jìn)行點卷積操作,點卷積將通道特征進(jìn)行融合,然后經(jīng)過星形運(yùn)算進(jìn)行逐元素相乘操作,將兩個分支的特征進(jìn)一步融合,然后進(jìn)行批歸一化,并使用h-swish激活函數(shù)。
25、進(jìn)一步優(yōu)選,將骨干網(wǎng)絡(luò)中提取出來的8倍、16倍以及32倍下采樣特征輸入可編程梯度信息模塊之中,可編程梯度信息模塊將得到的分類以及回歸的梯度信息補(bǔ)充到主分支之中。
26、進(jìn)一步優(yōu)選,頭部網(wǎng)絡(luò)使用聚焦損失函數(shù)(focaler-iou),并引入調(diào)節(jié)因子d和u:
27、;
28、其中,為重構(gòu)后的真實框和預(yù)測框的交并比,iou為交并比,d和u均為調(diào)節(jié)因子,調(diào)節(jié)因子取值范圍在(0,1)區(qū)間,聚焦損失函數(shù)(focaler-iou)的損失為。
29、本發(fā)明具有以下優(yōu)點:
30、(1)本發(fā)明提出使用文生圖擴(kuò)散模型進(jìn)行多模態(tài)數(shù)據(jù)增強(qiáng),因為文生圖擴(kuò)散模型訓(xùn)練十分穩(wěn)定,生成的圖像普遍良好且真實,不會出現(xiàn)時好時壞的情況,并且可以基于輸入的文本生成所想要生成的圖像,大大增加圖像的多樣性。本發(fā)明的多模態(tài)數(shù)據(jù)增強(qiáng)可以生成真實的、布局符合邏輯的圖像,不會丟失其真實信息,并且生成過程穩(wěn)定,圖像質(zhì)量普遍良好,且可以通過輸入文本以及異物真實框位置信息來得到所想要生成的圖像,使得圖像更具有多樣性,且得到符合真實框位置信息的數(shù)據(jù)增強(qiáng)的圖像,不需要額外進(jìn)行人工標(biāo)注,利于訓(xùn)練yolov9模型,并且提高其泛化能力。
31、(2)本發(fā)明采用mobilenetv4-small網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),并利用兩階段的神經(jīng)搜索架構(gòu)(tu?nas)進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,得到符合算力較低的邊緣設(shè)備的帕累托最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),可以最大程度的利用好該邊緣設(shè)備的算力。改進(jìn)卷積歸一化模塊,使用h-swish激活函數(shù)更好地緩解梯度消失,提高一定的泛化能力。
32、(3)頸部網(wǎng)絡(luò)使用更輕量的高層次篩選特征融合金字塔(hs-fpn)來融合特征,并且保留不基于錨框的方式,將分類和回歸進(jìn)行解耦,可以有效減少錨框的冗余,可以提高模型的推理效率。邊界框回歸損失函數(shù)使用聚焦損失函數(shù)(focaler-iou)進(jìn)行改進(jìn),計算損失時更加簡便,并且引入調(diào)節(jié)因子,降低檢測正確的樣本以后的損失貢獻(xiàn),增加對困難樣本損失貢獻(xiàn),提高輕量網(wǎng)絡(luò)的利用率。
33、(4)頭部網(wǎng)絡(luò)不使用非極大值抑制(nms),即使用nms-free模塊,在訓(xùn)練時采用一個真實框分配多個預(yù)測框分支(one-many一對多分支)與一個真實框分配一個預(yù)測框分支(one-one一對一分支)并行的方式豐富信息,采用統(tǒng)一的匹配度量,并且利用可編程梯度信息進(jìn)一步對nms-free模塊進(jìn)行優(yōu)化,而推理時拋棄一對多分支,采用一對一分支,能夠在不丟失過多信息的情況下,加快推理速度。提高了端到端部署能力以及推理速度和每秒處理幀數(shù)(fps)。