基于模糊劃分和模型集成的氣體傳感器陣列濃度檢測方法
【專利摘要】一種基于模糊劃分和模型集成的氣體傳感器陣列濃度檢測方法,屬于氣體傳感器陣列信號處理技術領域,該方法借助模糊聚類方法對基線漂移數(shù)據(jù)進行時間段劃分,將原始數(shù)據(jù)集劃分成漂移程度不同的多個子數(shù)據(jù)集;然后建立不同訓練數(shù)據(jù)集的回歸模型,得到若干子回歸模型;在訓練集內(nèi)獲得每個子回歸模型的最優(yōu)權重集合,對聚類中心和最優(yōu)權重進行擬和,得到最優(yōu)權重擬和函數(shù);在測試階段,基于最優(yōu)權重擬和函數(shù)和聚類中心時間計算擬和權重,將這些子回歸模型對待測數(shù)據(jù)的預測結果進行集成,得到最終氣體濃度值。此方法能自適應地改變模式識別模型,使其能跟蹤漂移的變化,有效減小漂移對濃度檢測性能的影響,保證濃度測量的長期準確性。
【專利說明】
基于模糊劃分和模型集成的氣體傳感器陣列濃度檢測方法
技術領域
[0001] 本發(fā)明屬于氣體傳感器陣列信號處理技術領域,具體涉及一種基于模糊劃分和模 糊加權多輸出支持向量回歸模型集成的長期漂移補償?shù)慕饘傺趸餁怏w傳感器陣列濃度 檢測方法。
【背景技術】
[0002] 利用氣體傳感器裝置代替?zhèn)鹘y(tǒng)的分析儀器是混合氣體檢測的新方法,金屬氧化物 半導體(Metal Oxide Semiconductor,M0S)氣體傳感器與其他類型氣體傳感器(如電化學 式傳感器、聲表面波傳感器、導電聚合物傳感器等)相比具有體積小、成本低、響應恢復快、 使用壽命長等優(yōu)點。隨著微電子機械系統(tǒng)加工技術的進步,可以在Si襯底上實現(xiàn)陣列化,采 用這種工藝的微結構氣體傳感器功耗低、與半導體制造工藝兼容性好、便于集成。因此,基 于MOS氣體傳感器陣列的檢測方法能夠滿足輕量化、快速、低成本的要求,易于實現(xiàn)多點、實 時測量。
[0003] 基于多個敏感特性不同的傳感器優(yōu)化組合構成傳感器陣列,并結合先進的智能化 識別技術,可以形成高精度的氣體辨識系統(tǒng)。然而,由于氣敏元件存在本身固有的局限性, 其中最大缺陷之一就是存在特性漂移,使得基于MOS氣體傳感器的檢測方法的測量精度、穩(wěn) 定性和可靠性受到限制。通過改進敏感材料、器件結構和補償電路的方法能在一定程度上 改善漂移問題,但使器件結構復雜化,提高了器件的成本,更主要的是仍不能從根本上解決 并達到理想的結果。
[0004] 目前,分類器集成的漂移補償方法受到廣泛關注,該方法的思想是利用不同數(shù)據(jù) 集合訓練分類器,得到若干分類器模型,再將這些子分類器對待測數(shù)據(jù)的識別結果進行集 成,得到最終結果。然而,目前方法仍存在問題,一是數(shù)據(jù)集的時間段劃分采用數(shù)據(jù)量均勻 分布的劃分方法,沒有考慮漂移變化的程度;二是目前的分類器的集成方法,僅用于定性分 析氣體種類,而不能用于混合氣體濃度的識別;三是采用的支持向量機方法中,沒有考慮各 個樣本點在模式識別過程中的重要程度的不同,預測精度有待提高。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術中存在的上述問題,本發(fā)明的目的在于提供一種基于模糊劃分和模 型集成的氣體傳感器陣列漂移補償方法,用于單一或混合氣體的濃度檢測。該方法通過聚 類方法按照基線信號的漂移程度進行時間段劃分,提高模型對傳感器漂移變化影響的魯棒 性;采用加權多輸出支持向量回歸,考慮各個樣本點在回歸過程中的重要程度的不同,從而 提高氣體濃度測量的長期準確性和穩(wěn)定性。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用了如下的技術方案:
[0007] -種基于模糊劃分和模型集成的氣體傳感器陣列濃度檢測方法,具體步驟如下:
[0008] 步驟1:數(shù)據(jù)采集:采用樣氣流量系統(tǒng)(Sample Flow System,SFS)測量方法,采集 電子鼻檢測系統(tǒng)中金屬氧化物半導體氣體傳感器陣列的時間響應信號,提取在標準氣體環(huán) 境下的基線響應數(shù)據(jù)和不同濃度的單一或混合氣體下響應信號的特征數(shù)據(jù);
[0009] 基線響應數(shù)據(jù)X〇(t)包含K個時間響應序列,X〇(t) = [XQl(t),XQ2(t),…,XQK(t) ],K 為氣體傳感器的個數(shù),XQi ( t) = [ XQi ( tl),XQi (t2 ),…,XQi ( tN) ]Τ,tl,t2,…,tN為采樣時刻,N為 樣本個數(shù),i表示第i個傳感器,?ε[1,2,···,κ],[ · ]τ表示向量的轉置;傳感器陣列在不同 濃度的單一或混合氣體下響應信號的特征數(shù)據(jù)為x(t) = [Xl(t),X2(t),…,XK(t)],其中Xi (t) = [Xil(t),Xi2(t),···,XiM(t)],M為每個傳感器輸出響應提取的特征數(shù);
[0010] 步驟2:數(shù)據(jù)預處理:對步驟1采集的基線響應數(shù)據(jù)進行預處理,包括異常值剔除和 標準化兩個步驟:
[0011] 異常值剔除的方法是首先計算樣本均值和樣本的標準偏差分別如下:
[0014] 然后判斷基線響應數(shù)據(jù)與樣本均值之差是否大于標準偏差的3倍,即 |%;(〇-飛1>3毛若大于,則剔除該基線數(shù)據(jù)樣本,并使用樣本平均值填充此數(shù)據(jù),若小于,則 保留;
[0015] 采用阿特曼z-score方法標準化后的數(shù)據(jù)為
[0016] 步驟3:在預處理后的基線響應數(shù)據(jù)中加入對應的時間向量七=[1:132,一3~]1',得 到增廣的基線矩陣數(shù)據(jù)4 W:=[i,4 (4,4 (0,…4 (0],令40切=(,則
[0017] 步驟4:采用聚類方法對步驟3得到的增廣的基線矩陣數(shù)據(jù)進行分析,從時間上將 基線響應數(shù)據(jù)劃分為C個不同時段的數(shù)據(jù)集DllD 2,…,DC,在同一時間段內(nèi)傳感器數(shù)據(jù)的漂 移程度較小,而不同時間段之間傳感器數(shù)據(jù)的漂移程度差異相對較大。本發(fā)明采用的聚類 方法為一種改進的非監(jiān)督模糊聚類方法,通過此方法可以將響應時間模糊劃分為不同的時 間段及數(shù)據(jù)集,同時確定聚類中心(β:,^,···,^)及其隸屬度函數(shù)矩陣。聚類中心是各聚類 中對象的均值所獲得的"中心對象",用以計算聚類相似度及確定各類的劃分范圍;隸屬度 函數(shù)表示每個樣本點屬于每個類的程度;該方法的具體步驟如下:
[0018] 步驟①:隨機選取C個元素,作為C個類的中心,初始化隸屬函數(shù)矩陣,給定聚類中 心改變量的閾值11ε(如11ε = 0.001);
[0019] 步驟②:確定目標函數(shù);目標函數(shù)定義,
N為樣本的個數(shù),Ulj 為第i個數(shù)據(jù)點屬于第j類的隸屬度;氏是第j類的中心;Z為隸屬度的加權指數(shù), (XO(ti) ,?)為相似度度量方式;
[0020] 步驟③:確定相似度度量方式:經(jīng)典的FCM方法采用歐氏距離,但是在噪音環(huán)境下, 采用歐氏度量的聚類方法有時不夠穩(wěn)定,且對于算法的初值、類的形狀、大小都過于敏感; 本發(fā)明針對氣體傳感器的特性,考慮到傳感器針對不同氣體的敏感度不同,設計如下的相 似度度量方式:
式中ω=[ωι, ω2,···,ω κ]是與輸入屬性 相對應的權重向量,通過調(diào)整COk的值,數(shù)據(jù)Xlk與數(shù)據(jù)|^間的相似性會發(fā)生變化,反映了不 同傳感器的影響程度,c〇ke[0,l],其值可通過實驗進行選擇,ω〇表示時間輸入屬性的向量 權重,取值為1;
[0021] 步驟④:最小化目標函數(shù),重新計算C個類各自的中心和隸屬度函數(shù);模糊分組的 迭代過程中隸屬度函數(shù)與聚類中心的更新分別為
[0022]
[0023] 步驟⑤:重復步驟④,直到聚類結果不再變化或相對上次得到的聚類中心的改變 量小于步驟①確定的閾值,得到最終確定的聚類中心&和隸屬度函數(shù)U lj;
[0024] 步驟⑥:由于增廣的基線矩陣數(shù)據(jù)X〇(t)的第一列元素為響應時間,因此相對應地 取每個聚類中心向量&的第一個元素按照從小到大排列構成(T 1J2r^Tc),作為每個時間 段劃分的聚類中心時刻,體現(xiàn)了在每個時間段內(nèi)傳感器漂移隨時間變化的程度是不同的, 然后計算與聚類中心時刻相對應的擴展寬丨
,則與聚 類中心時刻對應的時間段范圍為[Τη δ」,ινιι· δ」],η為區(qū)間的重疊參數(shù),調(diào)整η可以控 制時間段的重疊程度;
[0025] 步驟⑦:根據(jù)聚類方法得到的時間段范圍[Tm · δ」,τ^ · δ」],將基線響應數(shù)據(jù) 劃分為C個不同時段的數(shù)據(jù)集Di,D2,…,Dc,每個數(shù)據(jù)集的樣本數(shù)為e彳iVA,TV tt,…,;
[0026] 步驟5:選取D1,D2,…,Dl作為訓練集,L<C,DL+1,D L+2,…,Dc作為測試集;在每個訓 練數(shù)據(jù)集內(nèi),采用加權多輸出支持向量回歸(WM - S V R )方法得到回歸函數(shù)
[0029]通過在超球空間定義ε不敏感損失函數(shù)I(U),即定義一個能將各分量的擬合誤差 都考慮進來的損失函數(shù),使目標函數(shù)與各分量的誤差&都有關,從而達到整體優(yōu)化的目的; Luu〃」仕母個訓班、果円,墳這個訓練集的樣本數(shù)為NDm,加權多輸出支持向量回歸方法為, 對回歸函數(shù)/(.<)=丨「V(.V) + b,、目標是尋找W = [ Wi,W2,…,WQ ],b = [bi,b2,…,b0]τ,求解優(yōu)化 問題:
[0028] J(W,b)為目標函數(shù),C為懲罰因子,ε為松弛因子,yi為單一或混合氣體濃度實際值,Q為輸出 變量個數(shù),即氣體種類數(shù)。通過步驟4的模糊劃分后,各樣本點對聚類的隸屬度是不同的,本 發(fā)明在標準M-SVR模型中引入權系數(shù)M,以調(diào)整各樣本點在回歸中的作用J 1選取的是步驟4 得到的樣本點對于當前聚類的隸屬度;
[0030] 具體步驟如下:
[0031 ] 步驟①:給定Ai,c,ε及回歸結果誤差Ui的閾值υε,設定初值κ = 〇,yK = 〇,bK = 0,i^ 迭代次數(shù),γ = [ γ 1 γ 2··· γ q]t,γ i為線性組合系數(shù),γ j與Wj之間的變換關系為
果誤差 < 和拉格朗日乘子a ,,
[0032] 擊3S?.誦付下忒i+笪徨SI vs、hs
是核函數(shù)矩陣,
[0033]
[0034]
[0035] 步驟③:計算下降方[
[0036] 步驟④:通過下式計算下一步的解γ K+1,bK+1
[0037]
[0038] 式中:步長ηκ的搜索方法為首先設ηκ=?,根據(jù)%=Φτγ」計算w K+1,判斷目標函數(shù)J (WK+1,bK+1)<J(W K,bK)是否成立,如果不能,可將If乘以一個小于1的正數(shù)再計算WK+^b K+1, 直到滿足 J(WK+1,bK+1)<J(WK,bK);
[0039] 步驟⑤:計算<+1和拉格朗日I
[0040] 步驟⑥:若<+1小于步驟①確定的閾值%,則輸出最終確定的γ = yK+1,b=bK+1;否 貝1J,令K = K+1,返回步驟②;
[0041] 步驟⑦:得到這個訓練集的回歸函數(shù)
[0042]
[0043] 本發(fā)明采用的加權多輸出支持向量回歸方法求解的程序流程圖如圖3所示。
[0044] 步驟6 :在每個訓練集內(nèi)按步驟5計算得到的回歸函數(shù)設為尺_,(勹,i = 1,2,…, L,把這些回歸函數(shù)加權組合得到模型集成的回歸預測模型:
[0045]
[0046] 然后確定每個訓練集的權重系H
7友法為:對每個權重系數(shù)在[0, 1]區(qū)間內(nèi)進行搜索,搜索間隔為0.02,計算樣本濃度實際值71與預測值之間的均方根 誤^
對權重系數(shù)在其搜索范圍內(nèi)的每一種情況得到的均方根誤 差RMSE最小的那一組[名· .·,β^為最優(yōu)權重系數(shù);
[0047]步驟7:構建權重的擬和函數(shù)gj(t),j = [l,2,···,L],用以確定以下測試集的回歸 預測模型的權重系數(shù):
[0048]
[0049] 本步驟方法具體為:采用步驟6中得到的最優(yōu)權重系數(shù)α1作為機器學習過程的結 果,最優(yōu)權重系數(shù)α1對應的各訓練集的中心時刻1\作為數(shù)據(jù),即此學習過程的訓練樣本為
?于最小二乘支持向量回歸的方法得到權重的擬
和函數(shù)gj(t);
[0050] 最小二乘支持向量回歸方法中選取徑向基核函數(shù) P為核函數(shù); 核參數(shù)S、懲罰因子、不敏感參數(shù)尋優(yōu)算法采用基于粒子群智能全局優(yōu)化算法的參數(shù)選擇方 法;
[0051] 步驟8:測試階段:根據(jù)步驟7得到的權重擬和函數(shù)gj(t)計算擬和權重S1(T1) lg2 (Ti ….m ;然后某干各子冋咁樽型與擬和叔重講桿冋咁樽型的隼成
[0052]
[0053] 得到每個測試集內(nèi)單一或混合氣體的濃度預測最終值。
[0054]進一步地,步驟5中所述的采用加權多輸出支持向量回歸方法,核函數(shù)選取如下: 基于對局部核函數(shù)和全局核函數(shù)的綜合考慮,構造基于多項式核函數(shù)1α(Χ,Χι) = (Χτ · X1+ !:穴和徑向基核函!
?混合核函數(shù)k(x,xi)= γ ki(x,xi)+(l-y )k2 (x,Xl),既可實現(xiàn)徑向基核函數(shù)在擬合優(yōu)度上的優(yōu)勢,又可發(fā)揮多項式核函數(shù)在推廣性能 上的長處。加權核函數(shù)權值的優(yōu)化方法是在ki (X,Xi )、k2 (X,Xi)核參數(shù)確定的情況下,對每 個γ在區(qū)間[0,1]遍歷,找出使測量均方誤差最小的權值。
[0055]與現(xiàn)有技術相比,本發(fā)明的顯著效果是:采用回歸模型集成的方法進行傳感器漂 移補償,實現(xiàn)混合氣體濃度的定量識別;按照基線信號的漂移程度進行訓練子集的時間段 聚類劃分,考慮了漂移變化的程度,減小子模型的建模誤差,提高測量的長期準確性;采用 的加權多輸出支持向量回歸方法,考慮各個樣本點在模式識別過程中的重要程度的不同, 提高了氣體濃度測量的精度。
【附圖說明】
[0056] 圖1:本發(fā)明的基于模糊劃分和模型集成的氣體傳感器陣列濃度檢測方法的流程 圖;
[0057] 圖2:本發(fā)明所述的基于模糊劃分和加權多輸出支持向量回歸模型集成的金屬氧 化物氣體傳感器陣列濃度檢測漂移補償方法的流程圖;
[0058] 圖3:本發(fā)明中采用的加權多輸出支持向量回歸方法的程序流程圖;
[0059] 圖4:本發(fā)明實施例1中16個氣體傳感器在36個月內(nèi)的基線信號圖;
[0060] 圖5:本發(fā)明實施例1中兩種濃度預測方法對比:采用數(shù)據(jù)集l(batchl)作為訓練集 建立模型,預測全部十個數(shù)據(jù)集的測量精度;采用前一個鄰近的數(shù)據(jù)集作為訓練集建立模 型,預測后一個數(shù)據(jù)集的測量精度;
[0061] 圖6:本發(fā)明實施例1中采用基于模糊劃分和加權多支持向量回歸模型集成方法 (Fuzzy-ffMSVR method)與采用均勾劃分和支持向量回歸集成方法(Uniform-SVR method), 兩種漂移補償方法的誤差對比圖。
【具體實施方式】
[0062] 下面結合附圖對本發(fā)明的具體實施方法和工作原理作進一步詳細說明。
[0063] 實施例1
[0064] 本實施例中所使用的數(shù)據(jù)集是由A Vergara,S Vembu,T Ayhan,M Ryan,M Homer, R Huerta等人測量并公開的數(shù)據(jù)集,文獻參見"Chemical gas sensor drift compensation using classifier ensembles.''Sensors and Actuators B:Chemical 166 (2012): 320-329。傳感器陣列由Figaro公司的TGS2600、TGS2602、TGS2610和TGS26204組成, 每種4個共16個氣體傳感器。測試氣體包括氨氣、乙醛、丙酮、乙烯、乙醇和甲苯。每個傳感器 對每個樣本提取8個信號特征,包括兩個穩(wěn)態(tài)特征和6個瞬態(tài)特征。因此,每次測試可以由傳 感器陣列獲得一個128維的特征向量。測試歷經(jīng)三年(36個月),共計13910次測量。即數(shù)據(jù)集 為13910X128的矩陣。
[0065] 如圖1所示,本方案提出的基于模糊劃分和加權多輸出支持向量回歸模型集成的 金屬氧化物氣體傳感器陣列濃度檢測的漂移補償方法,按照如下步驟進行:
[0066] 步驟1:數(shù)據(jù)采集:采用樣氣流量系統(tǒng)(Sample Flow System, SFS)測量方法 (Vergara等人測量并公開的數(shù)據(jù)集是采用這種測量方法的),采集電子鼻檢測系統(tǒng)中金屬 氧化物半導體氣體傳感器陣列的時間響應信號,提取在標準氣體環(huán)境下的基線響應數(shù)據(jù)、 不同濃度的混合氣體下響應信號的特征。
[0067] 基線響應數(shù)據(jù)X〇(t)包含K個時間響應序列,X〇(t) = [XQl(t),XQ2(t),…,XQK(t) ],K 為氣體傳感器的個數(shù),XQi ( t) = [ XQi ( tl),XQi (t2 ),…,XQi ( tN) ]Τ,tl,t2,…,tN為采樣時刻,N為 樣本個數(shù),i表示第i個傳感器,?ε[1,2,···,κ],[ · ]τ表示向量的轉置;傳感器陣列在不同 濃度的單一或混合氣體下響應信號的特征數(shù)據(jù)為x(t) = [Xl(t),X2(t),…,XK(t)],其中Xi (t) = [Xil(t),Xi2(t),···,XiM(t)],M為每個傳感器輸出響應提取的特征數(shù);
[0068]由于數(shù)據(jù)集提取的兩個穩(wěn)態(tài)特征為電阻相對于基線的相對變化量△ R和電阻相對 于基線的絕對變化量
比,對于每個傳 感器采集的前兩個特征相除就得到了基線響應數(shù)彳
共為16維、13910次的測量 數(shù)據(jù)。采集的基線數(shù)據(jù)結果如圖4所示。對被測氣體的響應信號數(shù)據(jù)為128維、13910組數(shù)據(jù)。 [0069]步驟2:數(shù)據(jù)預處理:由圖4可以看出,基線樣本中的個別數(shù)值明顯偏離所屬樣本的 其余觀測值,即存在異常值,需要對采集的基線響應數(shù)據(jù)進行預處理,包括異常值剔除和標 準化兩個步驟。異常值剔除的方法是首先在每個月內(nèi)計算樣本均值和樣本的標準偏差分別 如下:
[0072] 然后判斷基線數(shù)據(jù)與平均值之差是否大于標準偏差的3倍,即>e,:(〇-4|>Ma,,若大 于,則剔除該基線數(shù)據(jù)樣本,并使用樣本平均值填充此數(shù)據(jù),若小于,則保留。
[0073] 采用阿特曼z-S core方法進行標準化后的數(shù)據(jù)為4
〇
[0074] 步驟3:在預處理后的基線響應數(shù)據(jù)中加入對應的時間向量七=[1:132,"_3〃]1',得 到增廣的基線矩陣數(shù)振
·則U時刻的基線數(shù)據(jù)可表 示為 -
_ ;如果數(shù)據(jù)采集周期是確定的(如每分鐘、每小時 等),則可以具體的時間點進行劃分。而本實施例中的數(shù)據(jù)集以月為單位進行實驗設置和采 集,同時傳感器漂移短期內(nèi)變化不明顯,因此以月為單位進行本實施例的模糊聚類劃分是 合適的。即基線數(shù)據(jù)中的時間向量為1-36個月,而基線特征選擇為每個月、每個傳感器基線 響應數(shù)據(jù)的平均值、標準偏差、相對變化量和絕對變化量四個特征。
[0075] 步驟4:采用聚類方法對步驟3得到的增廣的基線矩陣數(shù)據(jù)進行分析,從時間上將 基線響應數(shù)據(jù)劃分為C個不同時段的數(shù)據(jù)集DllD 2,…,DC,在同一時間段內(nèi)傳感器數(shù)據(jù)的漂 移程度較小,而不同時間段之間傳感器數(shù)據(jù)的漂移程度差異相對較大。本發(fā)明采用的聚類 方法為一種改進的非監(jiān)督模糊聚類方法,通過此方法可以將響應時間模糊劃分為不同的時 間段及數(shù)據(jù)集,同時確定聚類中心(?^,^,···,^)及其隸屬度函數(shù)矩陣。聚類中心是各聚類 中對象的均值所獲得的"中心對象",用以計算聚類相似度及確定各類的劃分范圍;隸屬度 函數(shù)表示每個樣本點屬于每個類的程度;
[0076] 步驟③中ω =[ Co1, ω2,···,ωκ]是與輸入屬性相對應的一個權重向量,通過調(diào)整 c〇k(k=l,2,…,16)的值,反映了不同傳感器的影響程度,ω 〇 = 1。通過實驗選取ω = [ 1, 0.8,0.8,1.2,1.2,1.3,1.3,1,1,0.8,0.8,1,1,1.3,1.3]〇
[0077] 具體算法中,設置C=10,對36個月的13910個樣本進行分組,聚類中心為,求得每 個類的擴展寬度心,通過聚類中心時刻對應的時間段范圍[Tj-n · Sj,Tj-n · Sj]判斷每個數(shù) 據(jù)點屬于哪個子集,選取合適的重疊參數(shù)η控制子集的重疊程度。模糊分組的作用是減小各 組間邊界數(shù)據(jù)的預測偏差。0=10,11=2.5時的聚類劃分結果見表1。
[0078]表1:設置C= 10,η = 2.5時的模糊聚類劃分結果
[0080]步驟5:選取前5個分組構成的數(shù)據(jù)集合01,02,03,04,0 5作為訓練集,其余06,07,08, D9,Dio作為測試集。本實施例中由于乙烯的樣本數(shù)據(jù)相對較多,且樣本濃度分布廣,因此選 擇乙烯作為待測氣體進行研究。在每個訓練數(shù)據(jù)集內(nèi),采用加權多輸出支持向量回歸(WM-SVR)方法得到回歸函數(shù)
,利用粒子群尋優(yōu)算法確定算法參數(shù)。通 過步驟4的模糊劃分后,各樣本點對聚類的隸屬度是不同的,本發(fā)明在標準M-SVR模型中引 入權系數(shù)\,以調(diào)整各樣本點在回歸中的作用A1選取的是步驟4得到的樣本點對于當前聚 類的隸屬度;
[0081 ]步驟6:在每個訓練集內(nèi)按步驟5計算得到的回歸函數(shù),設為/;丨胃@ (.τ),i = 1,2,…, L,把這?同丨丨=I函撒加*▽鉑會犋剄爐沏隹成的同丨丨=1雨》丨爐沏.
[0082]
[0083]然后確定每個訓練集的權重系藝
Γ法為:對每個權
重系數(shù)在[0,1]區(qū)間*計算樣本濃度實際值71與預測值y-ew 之間的均方根誤差 對權重系數(shù)在其搜索范圍內(nèi)的每一種情況得 到的均方根誤差RMSE最小的那一纟
%最優(yōu)權重系數(shù)。
[0084]步驟7:構建權重的擬和函數(shù)gj(t),j = [ 1,2,…,L],用以確定以下測試集的回歸 預測模型的權重系數(shù):
[0085]
[0086] 本步驟方法具體為:采用步驟6中得到的最優(yōu)權重系數(shù)α1作為機器學習過程的結 果,最優(yōu)權重系數(shù)α1對應的各訓練集的中心時刻1\作為數(shù)據(jù),即此學習過程的訓練樣本為
,基于最小二乘支持向量回歸的方法得到權重的擬 和函數(shù)gj(t);
[0087] 最小二乘支持向量回歸方法中選取徑向基核函聲
乍為核函數(shù); 核參數(shù)S、懲罰因子、不敏感參數(shù)尋優(yōu)算法采用基于粒子群智能全局優(yōu)化算法的參數(shù)選擇方 法;
[0088] 步驟8:測試階段:根據(jù)步驟7得到的權重擬和函數(shù)gj(t)計算擬和權重S1(T1) lg2 (T1),··· ^L(T1);然后基于各子回歸模型與擬和權重進行回歸模型的集成
[0089]
[0090] 得到每個測試集內(nèi)單一或混合氣體的濃度預測最終值。
[0091] 將數(shù)據(jù)集l(batchl)作為訓練集建立模型,預測全部十個數(shù)據(jù)集的測量精度,如圖 5所示,預測誤差隨著時間逐漸上升;采用前一個鄰近的數(shù)據(jù)集作為訓練集建立模型,預測 后一個數(shù)據(jù)集的測量精度,預測誤差相對減小;可以看出由于傳感器漂移的存在,使得模型 誤差越來越大。本發(fā)明的方法與采用均勻時間劃分及單支持向量回歸方法進行比較,其預 測誤差結果如圖6所示,可以看出,本發(fā)明的方法有效地減小了預測誤差,補償了傳感器長 期漂移的影響,體現(xiàn)了奔放明的顯著效果。采用回歸模型集成的方法進行傳感器漂移補償, 實現(xiàn)混合氣體濃度的定量識別;按照基線信號的漂移程度進行訓練子集的時間段聚類劃 分,考慮了漂移變化的程度,減小子模型的建模誤差,提高測量的長期準確性;采用的加權 多輸出支持向量回歸方法,考慮各個樣本點在模式識別過程中的重要程度的不同,提高了 氣體濃度測量的精度。
【主權項】
1.基于模糊劃分和模型集成的氣體傳感器陣列漂移補償方法,其步驟如下: 步驟1:數(shù)據(jù)采集:采用樣氣流量系統(tǒng)測量方法,采集電子鼻檢測系統(tǒng)中金屬氧化物半 導體氣體傳感器陣列的時間響應信號,提取在標準氣體環(huán)境下的基線響應數(shù)據(jù)X〇(t)和不 同濃度的單一或混合氣體下響應信號的特征數(shù)據(jù)義(*) = ^1(〇,義24),-,,站4)],其中,1( 為氣體傳感器的個數(shù); 步驟2:數(shù)據(jù)預處理:對步驟1采集的基線響應數(shù)據(jù)進行預處理,包括異常值剔除和標準 化兩個步驟: 異常值剔除的方法是首先計算樣本均值和樣本的標準偏差分別如下:然后判斷基線響應數(shù)據(jù)與樣本均值之差是否大于標準偏差的3倍,即μ。,如 若大于,則剔除該基線數(shù)據(jù)樣本,并使用樣本平均值填充此數(shù)據(jù),若小于,則保留; 采用阿特曼方法標準化后的數(shù)據(jù)為如0 = 請(0,…,成W],其中步驟3:在預處理后的基線響應數(shù)據(jù)中加入對應的時間向量t=[tl,t2,…,tN]T,得到增 廣的基線矩陣數(shù)據(jù)為(0 = [。;,(0,4(0,-,瑞(巧,令.冷(0=^,則*1時刻的基線數(shù)據(jù)可表示為 而(0 =[詩,(0,瑞(0,4 (0,...,端-(U]; 步驟4:采用聚類方法對步驟3得到的增廣的基線矩陣數(shù)據(jù)進行分析,具體步驟如下: 步驟①:隨機選取C個元素,作為C個類的中屯、,初始化隸屬函數(shù)矩陣,給定聚類中屯、改 變量的闊值Ue ; 步驟②:確定目標函數(shù);目標函數(shù)定義夫,N為樣本的個數(shù),UU為第i 個數(shù)據(jù)點屬于第j類的隸屬度;是第j類的中屯、;Z為隸屬度的加權指數(shù),l《z<-;d(x〇 (ti),W為相似度度量方式; 步驟③:確定相似度度量方式:設計相似度度量方式為式中ω=[ωι,ω2,…,ωκ]是與輸入屬性相對應的權重向 量,ω ke [0,1 ],其值可通過實驗進行選擇,ω 0表示時間輸入屬性的向量權重,取值為1; 步驟④:最小化目標函數(shù),重新計算C個類各自的中屯、和隸屬度函數(shù);模糊分組的迭代 過程中隸屬度函數(shù)與聚類中屯、的更新分別為步驟⑤:重復步驟④,直到聚類結果不再變化或相對上次得到的聚類中屯、和隸屬度函 數(shù)的改變量小于預先確定的闊值,得到最終確定的聚類中屯、01和隸屬度函數(shù)Uij; 步驟⑥:由于增廣的基線矩陣數(shù)據(jù)X〇(t)的第一列元素為響應時間,因此相對應地取每 個聚類中屯、向量權的第一個元素按照從小到大排列構成(。,了2,-,,孔),作為每個時間段劃 分的聚類中屯、時刻,體現(xiàn)了在每個時間段內(nèi)傳感器漂移隨時間變化的程度是不同的,然后 計算與聚類中屯、時刻相對應的擴展寬度./ = 1,1.~,(.',則與聚類中 屯、時刻對應的時間段范圍為[T廣η · δ^,τ廣η · ,11為區(qū)間的重疊參數(shù),調(diào)整η可W控制時 間段的重疊程度; 步驟⑦:根據(jù)聚類方法得到的時間段范圍[Τ廣η · δ^,τ廣η · δ^,將基線響應數(shù)據(jù)劃分為 C個不同時段的數(shù)據(jù)集化,…,Dc,每個數(shù)據(jù)集的樣本數(shù)為e ? iV〇,,iVA,-viVAh 步驟5:選取Di,D2,…,Dl作為訓練集,L<C,Dl+1,Dl+2,…,Dc作為測試集;在每個訓練數(shù)據(jù) 集內(nèi),采用加權多輸出支持向量回歸(W Μ - S V R )方法得到回歸函數(shù) 'f WM幻化,f機拉巧' ..., fmc'常; 在每個訓練集內(nèi),設運個訓練集的樣本數(shù)為Nd",加權多輸出支持向量回歸方法為,對回 歸函數(shù)/(y)=礦>(、')十b,目標是尋找W = [W1,W2,…,WQ],b = [bi,b2,...,bQ]T,求解優(yōu)化問 題:步驟6:在每個訓練集內(nèi)按步驟5計算得到的回歸函數(shù)設為游胃村,j = 1,2,…,L,把運 些回歸函數(shù)加權組合得到模型集成的回歸預測模型:然后確定每個訓練集的權重系數(shù)&' = > / = 1,2,...,五 >方法為:對每個權重系 數(shù)在[(U]區(qū)間內(nèi)進行捜索,捜索間隔為0.02,計算樣本濃度實際值yi與預測值ymodel,么間 的均方根誤差對權重系數(shù)在其捜索范圍內(nèi)的每一種情況得到的 均方根誤差RMSE最小的那一組[?1',《;,一,《。為最優(yōu)權重系數(shù); 步驟7:構建權重的擬和函數(shù)&(*)〇' = [1,2,一,山,用^確定^下測試集的回歸預測模 型的權重系數(shù):本步驟方法具體為:采用步驟6中得到的最優(yōu)權重系數(shù)〇1作為機器學習過程的結果,最 優(yōu)權重系數(shù)對應的各訓練集的中屯、時刻Τι作為數(shù)據(jù),即此學習過程的訓練樣本為 (7;,巧',),(7>;,),~,(7:冶,),/ = [1.2...,么],基于最小二乘支持向量回歸的方法得到權重的擬 和函數(shù)gj(t); 最小二乘支持向量回歸方法中選取徑向基核函勤作為核函數(shù);核參 數(shù)δ、懲罰因子、不敏感參數(shù)尋優(yōu)算法采用基于粒子群智能全局優(yōu)化算法的參數(shù)選擇方法; 步驟8:測試階段:根據(jù)步驟7得到的權重擬和函數(shù)g^t)計算擬和權重gi(Ti),g2 (Τι),…,gL(Ti);然后基于各子回歸模型與擬和權重進行回歸模型的集成 乂 (.X)=各1 (7,.)/wwsrR (.r) + g:巧)/;fMsra (.x)"! 巧)/ifMsra (.X),'·=把心..,口得到母個測試 集內(nèi)單一或混合氣體的濃度預測最終值。2. 如權利要求1所述的基于模糊劃分和模型集成的氣體傳感器陣列漂移補償方法,其 特征在于:步驟1所述的基線響應數(shù)據(jù)X〇(t)包含K個時間響應序列,X〇(t) = [XOl(t) ,X02 (t) ,··· ,X0K(t)],X0i(t) = [X0i(tl) ,X0i(t2),…,X0i(tN)]T,tl,t2,…,tN為采樣時刻,N為樣本 個數(shù),i表示第i個傳感器,?ε[1,2,···,κ],[ · ]τ表示向量的轉置;傳感器陣列在不同濃度 的單一或混合氣體下響應信號的特征數(shù)據(jù)為義4) = ^1(〇,義24),-,,站4)],其中義1(〇 = [Xil(t) ,Xi2(t),…,XiM(t)],Μ為每個傳感器輸出響應提取的特征數(shù),:Xij(t) = [Xij(tl) ,Xij (t2),...,Xij(tN)]T, jE [1,2,... ,Μ]。3. 如權利要求1所述的基于模糊劃分和模型集成的氣體傳感器陣列漂移補償方法,其 特征在于:步驟5所述的回歸函數(shù),具體步驟如下: 具體步驟如下: 步驟①:給定λι,(3,ε及回歸結果誤差化的闊值Ue,設定初值κ = 〇, 丫 K = 0,bK = 0,K為迭代 次數(shù),丫 = [丫 1 丫 2…丫 Q]T,丫 J為線性組合系數(shù),丫 J與Wj之間的變換關系為計算回歸結果誤差喊和拉格朗日乘子a 1,步驟②:通過下式計算得到丫 s、bS式中:丫 s= [丫 1 丫 2 …丫 Q]T,bs=[bl b2 …bQ]T,。=["1 幻2 公。=麻訪α,,α"…,α町J = 中=「<,。(.、'1 ),(φ-])?,'、一^ 步驟③:計算下降方向步驟④:通過下式計算下一步的解丫 "1,b"i式中:步長rf的捜索方法為首先設rf= 1,根據(jù)wj= Φ I 丫八十算r",判斷目標函數(shù)J(WK", B"i)<J(WK,bK)是否成立,如果不能,可將rf乘W-個小于1的正數(shù)再計算W"哺b"i,直到滿 足 J(W"i,b"i)<J(WK,bK); 步驟⑤:計算和拉格朗日乘子曰1 :步驟⑥:若皆+1小于步驟①確定的闊值Ue,則輸出最終確定的丫二丫 "i,b = b"i;否則, 令κ = κ+1,返回步驟②; 步驟⑦:得到運個訓練集的回歸函數(shù)
【文檔編號】G01N27/12GK105938116SQ201610438967
【公開日】2016年9月14日
【申請日】2016年6月20日
【發(fā)明人】王慶鳳, 盧革宇, 孫鵬
【申請人】吉林大學