本發(fā)明涉及人工智能、深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和圖像分割內(nèi)容,尤其涉及一種跨模態(tài)弱監(jiān)督的圖像分割方法(trse)。
背景技術(shù):
1、醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析中的關(guān)鍵步驟,它涉及到從醫(yī)學(xué)圖像中提取出需要觀察的區(qū)域,如器官、病灶等。這對(duì)于疾病的診斷、治療和預(yù)后評(píng)估具有重要意義。然而,由于醫(yī)學(xué)圖像的復(fù)雜性和多樣性,醫(yī)學(xué)圖像分割仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。
2、傳統(tǒng)的全監(jiān)督指稱圖像分割方法是一種需要大量標(biāo)注數(shù)據(jù)的方法,它們?cè)卺t(yī)學(xué)圖像分割中得到了廣泛的應(yīng)用。以下是一些常見(jiàn)的全監(jiān)督指稱圖像分割方法:
3、u-net是一種基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)的圖像分割方法,它在醫(yī)學(xué)圖像分割中得到了廣泛的應(yīng)用。u-net的主要優(yōu)點(diǎn)是它可以在較少的訓(xùn)練樣本下實(shí)現(xiàn)高精度的分割。
4、v-net是一種基于3d卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割方法。與u-net相比,v-net可以處理3d醫(yī)學(xué)圖像,從而更好地捕捉圖像的空間信息。
5、deeplab是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,它引入了空洞卷積和全連接條件隨機(jī)場(chǎng)(crf)來(lái)提高分割的精度和一致性。
6、然而,全監(jiān)督指稱圖像分割方法也存在一些不足:其一,它需要大量的標(biāo)注數(shù)據(jù),全監(jiān)督指稱圖像分割方法需要大量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型,而獲取這些數(shù)據(jù)通常是非常耗時(shí)和昂貴的。其二是其泛化能力有限,由于醫(yī)學(xué)圖像的多樣性,全監(jiān)督指稱圖像分割方法可能在一些新的、未見(jiàn)過(guò)的圖像上表現(xiàn)不佳。其三是對(duì)計(jì)算資源需求高,全監(jiān)督指稱圖像分割方法通常需要大量的計(jì)算資源,這可能限制了它們?cè)谝恍┵Y源有限的環(huán)境中的應(yīng)用。其四是對(duì)噪聲和偽影敏感,醫(yī)學(xué)圖像中常常包含噪聲和偽影,這可能會(huì)影響全監(jiān)督指稱圖像分割方法的性能。
7、由此,本發(fā)明通過(guò)引入文本監(jiān)督信號(hào),采用雙邊提示方法和校準(zhǔn)方法來(lái)提高目標(biāo)定位的準(zhǔn)確性,同時(shí)通過(guò)正響應(yīng)圖選擇策略來(lái)訓(xùn)練分割網(wǎng)絡(luò),從而實(shí)現(xiàn)了基于弱監(jiān)督信號(hào)的指稱圖像分割。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是:彌補(bǔ)當(dāng)前全監(jiān)督的指稱圖像分割的不足,提出一種跨模態(tài)弱監(jiān)督的圖像分割方法,以達(dá)到高效準(zhǔn)確并節(jié)省資源的目的。
2、本發(fā)明的技術(shù)方案如下:一種跨模態(tài)弱監(jiān)督的圖像分割方法,包括步驟如下:
3、步驟(1)提取圖像特征和文本特征;
4、給定一個(gè)輸入圖像和文本表達(dá)式查詢通過(guò)圖像編碼器encv和文本編碼器enct提取出初始視覺(jué)特征和初始文本特征其中hv=h/s和cv和ct分別表示視覺(jué)特征和文本特征的通道數(shù),s是下采樣的倍數(shù),t表示單詞數(shù)量;
5、所述文本表達(dá)式查詢分為正確的查詢表達(dá)式和錯(cuò)誤的查詢表達(dá)式qn;輸入圖像作為錨點(diǎn),正確的查詢表達(dá)式作為正樣本,n個(gè)錯(cuò)誤的查詢表達(dá)式作為負(fù)樣本;
6、通過(guò)投影層將v和l轉(zhuǎn)換到統(tǒng)一的隱藏維度cd,得到投影后的視覺(jué)特征和投影后的文本特征再通過(guò)l2通道歸一化規(guī)范化投影層的輸出,得到視覺(jué)特征v2和文本特征l2;
7、步驟(2)通過(guò)雙邊提詞注意模塊進(jìn)行特征增強(qiáng)更新;
8、給定輸入視覺(jué)特征和文本特征通過(guò)以下公式計(jì)算兩個(gè)注意力圖:
9、
10、其中,表示文本特征到視覺(jué)特征的關(guān)聯(lián)度,表示視覺(jué)特征到文本特征的關(guān)聯(lián)度,w*v和是視覺(jué)特征和文本特征的可學(xué)習(xí)參數(shù),表示矩陣乘法;所述雙邊提詞注意模塊表示為:
11、
12、其中,re(·)表示形狀變換函數(shù),l′為增強(qiáng)后的視覺(jué)特征,其形狀為v′為增強(qiáng)后的文本特征,其形狀為
13、采用雙邊提詞模塊來(lái)更新視覺(jué)特征和文本特征,具體如下:
14、
15、表示更新后的視覺(jué)特征,表示更新后的文本特征,α和β表示對(duì)應(yīng)的系數(shù);
16、步驟(3)生成響應(yīng)圖;
17、對(duì)于更新后的視覺(jué)特征先對(duì)其進(jìn)行重組,得到重組后的視覺(jué)特征
18、
19、對(duì)齊重組后的視覺(jué)特征和更新后的文本特征,得到像素i與文本j之間的響應(yīng):
20、
21、其中,v表示通道索引,τ表示一個(gè)可學(xué)習(xí)的溫度參數(shù),用來(lái)約束ri,j的范圍;
22、步驟(4)通過(guò)分類損失函數(shù)進(jìn)行監(jiān)督
23、對(duì)于正樣本qp和負(fù)樣本qn,分別計(jì)算圖像i對(duì)正樣本qp和負(fù)樣本qn的響應(yīng)映射;將rp和rn組合起來(lái)得到整個(gè)樣本的響應(yīng),并為每個(gè)文本表達(dá)式查詢qi計(jì)算圖像級(jí)分?jǐn)?shù)yj,如下所示:
24、
25、其中表示一個(gè)正則化項(xiàng),用來(lái)對(duì)正負(fù)樣本進(jìn)行平衡;yj的范圍是0-1,它的值越大,當(dāng)前待查詢文本qj與輸入圖像匹配度越高;
26、所述分類損失函數(shù)用于監(jiān)督整個(gè)分類過(guò)程,具體為:
27、
28、其中是視覺(jué)特征生成的監(jiān)督信號(hào),1表示正確查詢,0表示錯(cuò)誤查詢;
29、提出一種校準(zhǔn)損失函數(shù)來(lái)提高正響應(yīng)圖rp的定位和分割準(zhǔn)確度;首先將輸入圖像i與rp相乘,以獲取目標(biāo)對(duì)象的位置,并將其作為錨點(diǎn),再使用正確的查詢表達(dá)式qp作為正樣本,從同一圖像中描述不同對(duì)象的查詢中隨機(jī)采樣k個(gè)作為負(fù)樣本整個(gè)過(guò)程表示為:
30、
31、其中s(·,·,·)是一種相似度函數(shù),用于測(cè)量目標(biāo)對(duì)象和查詢之間的匹配度:
32、
33、up(·)是上采樣函數(shù),是余弦相似度計(jì)算函數(shù);
34、步驟(5)基于正樣本的響應(yīng)圖選擇策略獲取質(zhì)量最高的響應(yīng)圖;
35、首先為m個(gè)正樣本中的每個(gè)計(jì)算文本到圖像的響應(yīng)圖再使用上述s(·,·,·)計(jì)算相似度,將當(dāng)前相應(yīng)圖與所有正樣本的相似度得分相加,反應(yīng)準(zhǔn)確性:
36、
37、選擇累積得分最大的響應(yīng)圖作為目標(biāo)對(duì)象的響應(yīng)圖;
38、同時(shí)使用r[88]來(lái)進(jìn)一步提升響應(yīng)圖的精度,在對(duì)其進(jìn)行閾值處理后,獲得對(duì)應(yīng)的偽標(biāo)簽,用于訓(xùn)練指稱圖像分割網(wǎng)絡(luò);
39、步驟(6)使用偽標(biāo)簽訓(xùn)練指稱圖像分割網(wǎng)絡(luò)進(jìn)行圖像分割
40、所述指稱圖像分割網(wǎng)絡(luò)包括圖像編碼器、文本編碼器、多模態(tài)特征融合模塊和解碼器;將圖像和文本輸入編碼器得到對(duì)應(yīng)的特征;
41、將圖像編碼器和文本編碼器生成的后三個(gè)層級(jí)的視覺(jué)特征與文本特征使用多模態(tài)特征融合模塊來(lái)進(jìn)行融合,得到的跨模態(tài)特征,再輸入對(duì)應(yīng)的解碼器,得到最后的分割結(jié)果;
42、所述多模態(tài)特征融合模塊基于注意力機(jī)制,對(duì)于輸入的視覺(jué)特征和文本特征,先使用線性層將其投影到一個(gè)維度,得到和其中t表示輸入文本的單詞個(gè)數(shù);之后將視覺(jué)特征當(dāng)作qv,文本特征當(dāng)作vl和kl,
43、通過(guò)以下計(jì)算得到多模態(tài)特征ai;
44、qv=wqvi,kl=wkl,vl=wvl
45、
46、之后對(duì)其進(jìn)行轉(zhuǎn)置,使其與vi具有相同的形狀后進(jìn)行點(diǎn)乘:
47、mi=vi⊙a(bǔ)i
48、最終的多模態(tài)特征mi在經(jīng)過(guò)形狀重組后,再輸入一個(gè)線性層,得到融合輸出,并采用偽標(biāo)簽來(lái)監(jiān)督,損失函數(shù)選取標(biāo)準(zhǔn)的二分類交叉熵函數(shù),如下:
49、
50、pij越接近yij時(shí),損失函數(shù)的值越小。
51、所述圖像編碼器encv和文本編碼器enct取自clip模型。
52、本發(fā)明的有益效果:本發(fā)明通過(guò)將圖像和文本采用編碼器將圖像與文本相對(duì)應(yīng)匹配,并通過(guò)尋找對(duì)正確的描述產(chǎn)生高響應(yīng)的像素來(lái)定位目標(biāo)對(duì)象,同時(shí)采用雙邊提示方法,協(xié)調(diào)視覺(jué)和語(yǔ)言之間的模態(tài)差異,并通過(guò)例如前景增強(qiáng)、背景抑制等方法來(lái)提高準(zhǔn)確率,最后選擇正響應(yīng)圖選擇策略來(lái)進(jìn)一步增強(qiáng),找出高質(zhì)量的偽標(biāo)簽。相較于傳統(tǒng)的全監(jiān)督的方法會(huì)更加節(jié)省人力和時(shí)間,并且準(zhǔn)確率更高。