午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種用于篩選環(huán)境敏感性生物分子的方法

文檔序號:9397082閱讀:625來源:國知局
一種用于篩選環(huán)境敏感性生物分子的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息技術(shù)領(lǐng)域,涉及一種用于挖掘高通量生物信息數(shù)據(jù)中對環(huán)境 具有敏感性的生物分子的方法。
【背景技術(shù)】
[0002] 在環(huán)境毒理學(xué)領(lǐng)域中,生物體在有害因素(物理、化學(xué)、或者生物等因素)中暴露 會(huì)引起機(jī)體的各種變化,包括生理、生化、免疫、細(xì)胞和遺傳等方面的改變。隨著分子生物學(xué) 實(shí)驗(yàn)技術(shù)的發(fā)展,許多研究者已開始在分子水平上研究有害環(huán)境下生物分子的變化,識(shí)別 早期生物學(xué)效應(yīng),達(dá)到對危害因素的早期預(yù)警,從而更全面地進(jìn)行有害因素的風(fēng)險(xiǎn)預(yù)警,同 時(shí)也可用于毒理學(xué)機(jī)制和防治效果的研究。
[0003] 在分子生物學(xué)實(shí)驗(yàn)技術(shù)中,伴隨著高通量檢測技術(shù)的發(fā)展,環(huán)境毒理學(xué)研究越來 越重視獲取不同環(huán)境處理下的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等組學(xué)高通量數(shù)據(jù),并由 此從系統(tǒng)生物學(xué)的角度全面評估有害環(huán)境下敏感的生物分子,解析受環(huán)境脅迫的基因調(diào)控 網(wǎng)絡(luò),為分析環(huán)境毒理學(xué)機(jī)制和防治提供重要的研究手段。目前常用的生物組學(xué)技術(shù)受人 為操作以及多次實(shí)驗(yàn)數(shù)據(jù)整合的影響,數(shù)據(jù)的重復(fù)性不高、存在噪聲以及系統(tǒng)偏差,預(yù)測結(jié) 果往往存在由于方法而引起的無法消除的誤差。因此,需要發(fā)展多種有效的分析方法,尤其 是能夠處理多個(gè)數(shù)據(jù)集、對噪聲不敏感的統(tǒng)計(jì)方法,以提取海量數(shù)據(jù)中蘊(yùn)含的有用信息。本 領(lǐng)域一個(gè)前沿的研究方法是,通過整合不同實(shí)驗(yàn)來源的生物組學(xué)數(shù)據(jù),減少由于樣本量小 造成的誤差,尋找更加實(shí)用的分子標(biāo)記物。
[0004] 通過比較大樣本的生物組學(xué)數(shù)據(jù),尋找顯著差異的分子集合,可預(yù)測潛在的分子 標(biāo)記物。尋找差異表達(dá)分子的計(jì)算方法很多,最直接的方法就是測量變化倍數(shù),即計(jì)算兩 個(gè)樣本間同一分子的表達(dá)量之比。盡管變化倍數(shù)的方法直觀,但是該方法沒有考慮到噪 聲以及生物學(xué)的可變性,帶有明顯的任意性,造成顯著的假陽性和假陰性。比如,轉(zhuǎn)錄因 子,其差異倍數(shù)小于2時(shí),實(shí)際上也具有很高的生物學(xué)效應(yīng)(Hu et al.,2009 ;Sleno and Emili, 2008)。此外,倍數(shù)變化法篩選到的特征的數(shù)量一般較大,對于進(jìn)一步研究生物分子 的功能,帶來了很大的不便。
[0005] 因此,特征選擇成為了差異分子篩選關(guān)鍵的一步,是篩選出有價(jià)值的敏感分子, 進(jìn)行有針對性和高效研究的重要手段。根據(jù)特征選擇過程與分類器設(shè)計(jì)的關(guān)系,特征 選擇算法一般分為過濾法(filter)、繞封法(wrapper)和嵌入法(embedded) (Saey et al.,2007)。其中,filter法獨(dú)立于分類器,wrapper法和Embedded法與分類器結(jié)合使用。目 前人們已經(jīng)研究了多種特征選擇算法,如IQR和ANOVA法屬于filter法,已經(jīng)成功地被運(yùn) 用到基于DNA芯片數(shù)據(jù)的敏感基因的篩選(Barrell etal.,2008 ;Barrell etal.,2009)。 隨機(jī)森林(Random Forests)屬于embedded法,該方法是基于決策樹(decision tree)的 分類器集成算法,最早由Leo Breiman提出(Breiman 2001)。通過隨機(jī)置換分離點(diǎn)的值判 斷其對分類效果的影響從而決定被置換基因的重要性,并對所有基因的重要性進(jìn)行排序。
[0006] 然而,這些算法均有一定的優(yōu)缺點(diǎn),如filter法的優(yōu)勢在于能很快地排除大量的 非關(guān)鍵的噪聲特征,縮小特征子集的搜索范圍,適合作為特征的預(yù)選器;但該法篩選到的特 征規(guī)模一般比較大,其中仍包含一些明顯的噪聲特征,給尋找關(guān)鍵性的特征和分類帶來很 大的阻礙。wrapper和embedded法在速度上比filter法慢,但其考慮了特征之間的關(guān)系, 造成所選的優(yōu)化特征子集的規(guī)模相對要小得多,非常有利于關(guān)鍵特征的識(shí)別和篩選。因此, 如何組合這些算法使其更適合篩選環(huán)境特異性的敏感分子標(biāo)志物,以及對環(huán)境敏感性分子 按照重要性進(jìn)行排序,成為一個(gè)亟需要解決的問題。

【發(fā)明內(nèi)容】

[0007] 鑒于現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提供一種既要考慮特征之間的關(guān)系、特征 的重要性,又要減少程序運(yùn)行時(shí)間的組合的特征選擇算法,以用于篩選環(huán)境敏感的生物分 子。
[0008] 本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
[0009] 一種用于環(huán)境敏感性生物分子的篩選方法,包括以下步驟:
[0010] ①.讀入相應(yīng)生物樣本表達(dá)譜數(shù)據(jù)矩陣,矩陣中的行屬性為組學(xué)數(shù)據(jù)中的特征或 者變量,列屬性表示擬分析環(huán)境處理的條件;所述表達(dá)譜數(shù)據(jù)矩陣中的數(shù)據(jù)為對應(yīng)環(huán)境處 理?xiàng)l件下特征的絕對表達(dá)量;
[0011] ②.步驟①得到的表達(dá)譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;所述標(biāo)準(zhǔn)化處理方法為均值標(biāo)準(zhǔn) 化處理;
[0012] ③.計(jì)算步驟②得到的標(biāo)準(zhǔn)化的表達(dá)譜矩陣中每個(gè)特征的IQR的大??;所述IQR 為統(tǒng)計(jì)學(xué)參數(shù)四分位距;
[0013] ④.將步驟③得到的所有特征的IQR大小進(jìn)行正態(tài)分布擬合分析:將正態(tài)分布 90%累積概率對應(yīng)的IQR設(shè)定為相應(yīng)的閾值;
[0014] ⑤.將步驟②得到的標(biāo)準(zhǔn)化的表達(dá)譜矩陣進(jìn)行IQR算法過濾:將IQR與步驟④得 到的相比較,并將IQR大于閾值的特征記錄,得到IQR算法過濾下的差異表達(dá)特征;
[0015] ⑥.將步驟②得到的標(biāo)準(zhǔn)化的表達(dá)譜矩陣中的列屬性按照不同的處理?xiàng)l件進(jìn)行 重新分組;
[0016] ⑦.將⑥得到的表達(dá)譜矩陣進(jìn)行ANOVA算法過濾:將p設(shè)定為0. 05,得到ANOVA過 濾下的差異表達(dá)特征;所述的ANOVA為統(tǒng)計(jì)學(xué)中方差分析;所述p為組間差異性水平;
[0017] ⑧.將步驟⑤和⑦中得到的差異表達(dá)特征相互匹配,得到共同差異表達(dá)的特征;
[0018] ⑨.將步驟⑧得到共同差異表達(dá)特征矩陣進(jìn)行Random Forest算法排序,得到特 征的重要性:將重要性大于1. 5的特征記錄,得到重要的響應(yīng)環(huán)境處理的特征矩陣;所述 RandomForest表示隨機(jī)森林算法,是生物信息學(xué)中一種用于篩選變量的數(shù)據(jù)挖掘算法;
[0019] ⑩.將步驟⑨得到的響應(yīng)環(huán)境處理的特征矩陣,進(jìn)行聚類分析,得到響應(yīng)環(huán)境處 理的敏感分子標(biāo)志物;所述聚類為無監(jiān)督學(xué)習(xí)中的系統(tǒng)聚類。
[0020] 進(jìn)一步,在上述技術(shù)方案中,具體還包括以下步驟:步驟①中,所述的組學(xué)數(shù)據(jù)包 括基因組,蛋白質(zhì)組,代謝組等數(shù)據(jù),其對應(yīng)的特征分別為基因,蛋白質(zhì)分子,代謝物等;所 述的環(huán)境處理?xiàng)l件包括對照組和脅迫環(huán)境處理組;所述的組學(xué)數(shù)據(jù)樣本量大于等于3 ;所 述的環(huán)境處理?xiàng)l件大于等于2,其中包括1組對照處理。所述的組學(xué)數(shù)據(jù)的篩選方法為一種 生物信息學(xué)組合特征選擇算法。
[0021] 進(jìn)一步,在上述技術(shù)方案中,所述步驟②還包括,在中值標(biāo)準(zhǔn)化,離差標(biāo)準(zhǔn)化,標(biāo)準(zhǔn) 差標(biāo)準(zhǔn)化和對數(shù)Logistic的標(biāo)準(zhǔn)化方法中任取一種方法;
[0022] 進(jìn)一步,在上述技術(shù)方案中,所述步驟④還包括,正態(tài)分布的檢驗(yàn);所述正態(tài)分布 的檢驗(yàn)方法為Kolmogorov-Smirnov檢驗(yàn);
[0023] 進(jìn)一步,在上述技術(shù)方案中,所述步驟⑤還包括,按照IQR過濾下的差異表達(dá)特征 的順序?qū)С龌贗QR的差異表達(dá)譜矩陣;所述的IQR算法的閾值,可以根據(jù)需要進(jìn)行調(diào)整。
[0024] 進(jìn)一步,在上述技術(shù)方案中,所述步驟⑦還包括,按照ANOVA過濾下的差異表達(dá)特 征的順序?qū)С龌贏NOVA的差異表達(dá)譜矩陣;所述的ANOVA算法的p值,可以根據(jù)需要,在 滿足要求P < 〇. 05的要求內(nèi)進(jìn)行調(diào)整。
[0025] 進(jìn)一步,在上述技術(shù)方案中,所述步驟⑧還包括,按照共同差異表達(dá)的特征的順序 導(dǎo)出共同的差異表達(dá)譜矩陣;
[0026] 進(jìn)一步,在上述技術(shù)方案中,所述步驟⑨還包括以下步驟,
[0027] 按照步驟⑥進(jìn)行列屬性分組;
[0028] 對步驟⑧和上文所述的共同差異表達(dá)特征數(shù)據(jù),調(diào)整Random Forest中的參數(shù),得 到最低的分類錯(cuò)誤率,確定最佳的算法執(zhí)行參數(shù);所述的分類錯(cuò)誤率為OOB錯(cuò)誤率;
[0029] 按照重要差異表達(dá)的特征的順序?qū)С鲋匾牟町惐磉_(dá)譜矩陣;
[0030] 所述的Random Forest算法中的重要性閾值,可以根據(jù)需要進(jìn)行調(diào)整。
[0031] 進(jìn)一步,在上述技術(shù)方案中,所述步驟⑩還包括,按照聚類分析的結(jié)果導(dǎo)出響應(yīng)環(huán) 境處理的敏感分子標(biāo)志物。
[0032] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0033] 1.本發(fā)明提供了一種篩選環(huán)境敏感性生物分子的方法,組合了特征選擇算法中過 濾法(IQR和ANOVA算法)和封裝法(Random Forest算法)的優(yōu)勢,可比單一的特征選擇 算法更好地篩選環(huán)境敏感性生物分子。
[0034] 2.本發(fā)明通過生物信息學(xué)方法編寫程序,可快速準(zhǔn)確地從高通量的數(shù)據(jù)中篩選環(huán) 境敏感性生物分子,操作簡便,與手工分析相比,可大大減少工作量。
[0035] 3.本發(fā)明能對這些特異性變化的生物分子進(jìn)行關(guān)聯(lián)水平的排序,為進(jìn)一步研究其 生物學(xué)功能和獲取生物標(biāo)志物提供敏感的靶分子。
【附圖說明】
[0036] 圖1為本發(fā)明方法的實(shí)現(xiàn)流程圖;
[0037] 圖2為IQR算法計(jì)算每個(gè)特征的IQR分布圖;
[0038] 圖3為IQR算法計(jì)算每個(gè)特征的IQR分布的正態(tài)分布擬合圖;
[0039] 圖4為IQR與ANOVA算法篩選到的特征比較圖;
[0040] 圖5為Random Forest算法下參數(shù)ntree與分類錯(cuò)誤率圖;
[0041] 圖6為Random Forest算法篩選到的重要性的特征圖;
[0042] 圖7為重要性特征的聚類分析圖。
【具體實(shí)施方式】
[0043] 下面主要結(jié)合附圖和具體實(shí)施例對本發(fā)明的構(gòu)建和結(jié)果進(jìn)行詳細(xì)描述。但是本領(lǐng) 域的普通技術(shù)人員將會(huì)理解,下列實(shí)施例僅用于說明本發(fā)明,但不應(yīng)視為限制本發(fā)明的范 圍。
[0044] 下面以線蟲全基因表達(dá)組為例(類似的信息在其它相關(guān)的實(shí)驗(yàn)中也容易獲得), 對本發(fā)明進(jìn)行詳細(xì)說明。
[0045] 線蟲全基因表達(dá)組芯片:上??党缮锕?br>[0046] 線蟲全基因組表達(dá)組芯片數(shù)據(jù),包括九組數(shù)據(jù)。其中,該數(shù)據(jù)集包含三種線蟲類 型,分別為野生型,dys-Ι突變體,和ced-Ι突變體。所述三種線蟲暴露在空間協(xié)同、空間輻 射與地面對照等三種不同的環(huán)境處理?xiàng)l件下。
[0047] 空間協(xié)同組(SF):在神舟-8號飛船空間飛行環(huán)境下,線蟲固定在SHffiOX盒中,該 盒置于飛船內(nèi)固定。空間飛行16. 5天,待飛船返回后7h內(nèi)收集線蟲,提取得到總RNA。利 用Invitrogen Superscript試劑盒合成DS-cDNA,并對其進(jìn)行單色焚光標(biāo)記(NimbleGen)。 使用NimbleGen芯片雜交系統(tǒng)和Axon GenePix 4000B芯片掃描進(jìn)行熒光雜交和對熒光 結(jié)果掃描。最后利用 NimbleScan software (version 2.5)以及 Agilent GeneSpring GX software(version 11.5. 1)對芯片結(jié)果進(jìn)行讀取和分析,獲取在空間協(xié)同條件下的線蟲全 基因組的絕對表達(dá)量數(shù)據(jù);
[0048] 空間輻射組(SC):在神
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1