本發(fā)明屬于生物信息學(xué),尤其涉及一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、隨著生物信息學(xué)和基因組學(xué)技術(shù)的迅猛發(fā)展,多組學(xué)數(shù)據(jù)分析成為了研究復(fù)雜生物系統(tǒng)中基因表達(dá)、蛋白質(zhì)相互作用及代謝途徑等方面的重要手段。傳統(tǒng)的多組學(xué)分析方法通常依賴于將不同類型的生物學(xué)數(shù)據(jù)分開處理和分析,這種方法雖然在一定程度上推動了生物醫(yī)學(xué)研究的進(jìn)展,但在處理空間多組學(xué)數(shù)據(jù)時顯示出一定的局限性,特別是在空間分辨率和數(shù)據(jù)整合方面。
3、空間多組學(xué)技術(shù)是近年來生物信息學(xué)領(lǐng)域的重要突破,它能夠在單細(xì)胞水平上提供空間位置信息,從而使研究人員能夠在細(xì)胞甚至亞細(xì)胞水平上探究基因表達(dá)、蛋白質(zhì)分布及其功能。然而,生物組織是一個復(fù)雜的系統(tǒng),利用傳統(tǒng)的空間組學(xué)分析技術(shù)往往缺乏效率和準(zhǔn)確性,尤其是在識別和整合來自不同空間區(qū)域的異質(zhì)數(shù)據(jù)時面臨巨大挑戰(zhàn)。
4、異質(zhì)圖技術(shù)(heterogeneous?graph),作為一種有效處理異質(zhì)數(shù)據(jù)的方法,為整合和分析來自不同數(shù)據(jù)源的信息提供了可能。但其在空間多組學(xué)數(shù)據(jù)的應(yīng)用尚處于初級階段,急需開發(fā)一種能夠有效利用異質(zhì)圖技術(shù)來解決空間域識別問題的新方法。
技術(shù)實(shí)現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,能夠有效整合和分析空間多組學(xué)數(shù)據(jù),在多個視角探究空間組學(xué)數(shù)據(jù),提高空間域識別的準(zhǔn)確性和效率,為深入理解細(xì)胞間的空間功能關(guān)系提供了新的工具和視角。
2、為實(shí)現(xiàn)上述目的,本發(fā)明的一個或多個實(shí)施例提供了如下技術(shù)方案:
3、第一方面,公開了一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,包括:
4、獲取空間組學(xué)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,獲得基因表達(dá)數(shù)據(jù);
5、利用細(xì)胞的空間位置信息將預(yù)處理后的空間組學(xué)數(shù)據(jù)的組織圖像按照細(xì)胞個數(shù)劃分為多個子圖像,從多個子圖像中提取特征表示;
6、基于提取的特征表示構(gòu)建不同視角下的鄰接矩陣;
7、對每一個視角構(gòu)建一組圖編碼器,每一組圖編碼器包含兩層gcn,分別對不同視角下構(gòu)建的鄰接矩陣和基因表達(dá)數(shù)據(jù)進(jìn)行處理,得到圖編碼特征,gcn為圖卷積神經(jīng)網(wǎng)絡(luò);
8、基于注意力機(jī)制構(gòu)建異質(zhì)圖:利用注意力機(jī)制計算圖編碼特征中每一個視角的潛在特征,將多個視角下的潛在特征相加,即為所有視角的聯(lián)合潛在特征;
9、基于所有視角的聯(lián)合潛在特征計算聯(lián)合概率密度和經(jīng)驗(yàn)概率密度,基于聯(lián)合概率密度和經(jīng)驗(yàn)概率密度,定義自監(jiān)督的目標(biāo)函數(shù),構(gòu)建訓(xùn)練模型;
10、將待識別的空間組學(xué)數(shù)據(jù)輸入至訓(xùn)練后的模型獲得多組學(xué)空間域信息。
11、作為進(jìn)一步的技術(shù)方案,對獲取的空間組學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括:刪除空間組學(xué)數(shù)據(jù)中表達(dá)量小于三個細(xì)胞的基因和線粒體基因;
12、然后對空間組學(xué)數(shù)據(jù)正則化并取對數(shù),最后篩選所需數(shù)據(jù)量的高表達(dá)基因,即得到基因表達(dá)數(shù)據(jù)。
13、作為進(jìn)一步的技術(shù)方案,對于多個子圖像,每一個細(xì)胞對應(yīng)一個子圖像。
14、作為進(jìn)一步的技術(shù)方案,從多個子圖像中提取特征表示,具體為:采用特征提取器,將高維的圖像數(shù)據(jù)轉(zhuǎn)換為低維的特征表示。
15、作為進(jìn)一步的技術(shù)方案,每一組圖編碼器包含兩層gcn,其中,每一層?gcn?提取的特征綜合了鄰近節(jié)點(diǎn)的信息。
16、作為進(jìn)一步的技術(shù)方案,圖編碼特征的具體表達(dá)為:
17、
18、表示第層的圖編碼特征,是一個矩陣,其大小與輸入特征矩陣相同;是輸入的鄰接矩陣經(jīng)過預(yù)處理后的鄰接矩陣;是的度矩陣,是一個對角矩陣,其對角線上的元素是每個節(jié)點(diǎn)的度;表示第層的圖編碼特征,是上一層的輸出;表示第層到第層的權(quán)重矩陣,是一個可學(xué)習(xí)的參數(shù)矩陣;表示激活函數(shù)。
19、第二方面,公開了一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別系統(tǒng),包括:
20、基因表達(dá)數(shù)據(jù)獲取模塊,被配置為:獲取空間組學(xué)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,獲得基因表達(dá)數(shù)據(jù);
21、特征表示提取模塊,被配置為:利用細(xì)胞的空間位置信息將預(yù)處理后的空間組學(xué)數(shù)據(jù)的組織圖像按照細(xì)胞個數(shù)劃分為多個子圖像,從多個子圖像中提取特征表示;
22、鄰接矩陣構(gòu)建模塊,被配置為:基于提取的特征表示構(gòu)建不同視角下的鄰接矩陣;
23、圖編碼特征獲取模塊,被配置為:對每一個視角構(gòu)建一組圖編碼器,每一組圖編碼器包含兩層gcn,分別對不同視角下構(gòu)建的鄰接矩陣和基因表達(dá)數(shù)據(jù)進(jìn)行處理,得到圖編碼特征,gcn為圖卷積神經(jīng)網(wǎng)絡(luò);
24、聯(lián)合潛在特征獲取模塊,被配置為:基于注意力機(jī)制構(gòu)建異質(zhì)圖:利用注意力機(jī)制計算圖編碼特征中每一個視角的潛在特征,將多個視角下的潛在特征相加,即為所有視角的聯(lián)合潛在特征;
25、模型訓(xùn)練模塊,被配置為:基于所有視角的聯(lián)合潛在特征計算聯(lián)合概率密度和經(jīng)驗(yàn)概率密度,基于聯(lián)合概率密度和經(jīng)驗(yàn)概率密度,定義自監(jiān)督的目標(biāo)函數(shù),構(gòu)建訓(xùn)練模型;
26、識別模塊,被配置為:將待識別的空間組學(xué)數(shù)據(jù)輸入至訓(xùn)練后的模型獲得多組學(xué)空間域信息。
27、以上一個或多個技術(shù)方案存在以下有益效果:
28、本發(fā)明技術(shù)方案基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,該方法能夠有效整合和分析空間多組學(xué)數(shù)據(jù),在多個視角探究空間組學(xué)數(shù)據(jù),提高空間域識別的準(zhǔn)確性和效率,為深入理解細(xì)胞間的空間功能關(guān)系提供了新的工具和視角。
29、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
1.一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,包括:
2.如權(quán)利要求1所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,對獲取的空間組學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括:刪除空間組學(xué)數(shù)據(jù)中表達(dá)量小于三個細(xì)胞的基因和線粒體基因;
3.如權(quán)利要求1所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,對于多個子圖像,每一個細(xì)胞對應(yīng)一個子圖像。
4.如權(quán)利要求1所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,從多個子圖像中提取特征表示,具體為:采用特征提取器,將高維的圖像數(shù)據(jù)轉(zhuǎn)換為低維的特征表示。
5.如權(quán)利要求1所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,每一組圖編碼器包含兩層gcn,其中,每一層?gcn?提取的特征綜合了鄰近節(jié)點(diǎn)的信息。
6.如權(quán)利要求1所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別方法,其特征是,圖編碼特征的具體表達(dá)為:
7.一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別系統(tǒng),其特征是,包括:
8.如權(quán)利要求7所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別系統(tǒng),其特征是,對獲取的空間組學(xué)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括:刪除空間組學(xué)數(shù)據(jù)中表達(dá)量小于三個細(xì)胞的基因和線粒體基因;
9.如權(quán)利要求7所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別系統(tǒng),其特征是,對于多個子圖像,每一個細(xì)胞對應(yīng)一個子圖像。
10.如權(quán)利要求7所述的一種基于異質(zhì)圖的空間多組學(xué)技術(shù)空間域識別系統(tǒng),其特征是,從多個子圖像中提取特征表示,具體為:采用特征提取器,將高維的圖像數(shù)據(jù)轉(zhuǎn)換為低維的特征表示。