一種魯棒機(jī)器錯(cuò)誤檢索方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘及計(jì)算機(jī)視覺技術(shù)領(lǐng)域,具體來(lái)說,設(shè)及一種魯椿機(jī)器錯(cuò)誤 檢索方法與系統(tǒng)。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)和智能化的不斷發(fā)展,機(jī)器錯(cuò)誤分類已經(jīng)發(fā)展成為數(shù)據(jù)挖掘中非 常重要的一個(gè)研究課題。機(jī)器錯(cuò)誤分類技術(shù)通過計(jì)算機(jī)將機(jī)器數(shù)據(jù)電子化,然后分析數(shù)據(jù) 結(jié)構(gòu),獲取數(shù)據(jù)特征,在機(jī)械故障診斷等領(lǐng)域有著重大的意義,一旦研究成功并投入應(yīng)用, 將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。
[0003] 目前的大部分研究工作都集中在全監(jiān)督或者無(wú)監(jiān)督方法用于提取機(jī)器數(shù)據(jù)特征 進(jìn)行機(jī)器錯(cuò)誤分類,且也已取得一定的成果。但是真實(shí)世界中的機(jī)器數(shù)據(jù)通常是少量有標(biāo) 簽,而大多數(shù)無(wú)標(biāo)簽,大多數(shù)研究表明全監(jiān)督方法用于數(shù)據(jù)分類優(yōu)于無(wú)監(jiān)督方法,但應(yīng)用全 監(jiān)督方法獲取所有數(shù)據(jù)標(biāo)簽需要很大的開銷,因此如何有效利用機(jī)器數(shù)據(jù)中的標(biāo)簽提高分 類精度是需要深入探討的問題。
[0004] 近年來(lái),K-SVD和D-KSVD值iscriminativeK-SVD)等經(jīng)典的字典學(xué)習(xí)算法可通過 學(xué)習(xí)一個(gè)重構(gòu)的字典,訓(xùn)練得到數(shù)據(jù)集的稀疏編碼來(lái)表征數(shù)據(jù)的特征,并計(jì)算得到線性分 類器,可對(duì)數(shù)據(jù)進(jìn)行分類。但當(dāng)選取的訓(xùn)練數(shù)據(jù)樣本較少時(shí),數(shù)據(jù)的特征未能精確的表征, 所W分類的精度很低。為了克服此缺點(diǎn),它們的推廣LC-KSVD(L油elConsistentK-SVD) 被提出,當(dāng)已知全部數(shù)據(jù)樣本的標(biāo)簽,LC-KSVD在學(xué)習(xí)判別的可重構(gòu)字典時(shí),有效的保持字 典各項(xiàng)與數(shù)據(jù)標(biāo)簽的內(nèi)在聯(lián)系,使得即使訓(xùn)練樣本較少,通過學(xué)到的字典訓(xùn)練得到的稀疏 編碼也能最大程度的表征數(shù)據(jù)的特征,從而通過計(jì)算得到的線性分類器精確的對(duì)機(jī)器錯(cuò)誤 數(shù)據(jù)進(jìn)行分類。LC-KSVD的目標(biāo)是用全監(jiān)督的方法去對(duì)數(shù)據(jù)進(jìn)行分類,但獲得全部數(shù)據(jù)標(biāo)簽 需要很大的開銷。
[0005] 因此,提供一種方便獲得數(shù)據(jù)標(biāo)簽的機(jī)器錯(cuò)誤分類方法W降低開銷,是本領(lǐng)域技 術(shù)人員亟待解決的問題。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明提供了一種魯椿機(jī)器錯(cuò)誤檢索方法及系統(tǒng),W克服現(xiàn)有技術(shù)中 獲得數(shù)據(jù)標(biāo)簽開銷大的問題。
[0007] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0008] -種魯椿機(jī)器錯(cuò)誤檢索方法,包括:
[0009] 利用標(biāo)簽預(yù)測(cè)方法通過直推式方式估計(jì)得到訓(xùn)練集中的未標(biāo)定樣本數(shù)據(jù)的類別 標(biāo)簽,生成包括所有有標(biāo)定的樣本數(shù)據(jù)的新訓(xùn)練集;
[0010] 根據(jù)所述新訓(xùn)練集中的機(jī)器錯(cuò)誤數(shù)據(jù)及其標(biāo)簽信息,進(jìn)行標(biāo)簽一致字典學(xué)習(xí),得 到判別稀疏編碼,利用所述判別系數(shù)編碼構(gòu)造自適應(yīng)權(quán)重系數(shù),得到自適應(yīng)重構(gòu)系數(shù)矩陣, 根據(jù)所述自適應(yīng)重構(gòu)系數(shù)矩陣得到一個(gè)投影分類器,利用所述投影分類器對(duì)訓(xùn)練集中的未 標(biāo)定的樣本數(shù)據(jù)的類別信息進(jìn)行更新;
[0011] 通過多次迭代訓(xùn)練,得到一個(gè)判別的可重構(gòu)字典,一個(gè)機(jī)器錯(cuò)誤數(shù)據(jù)的判別稀疏 編碼,W及一個(gè)最優(yōu)的投影分類器;
[0012] 利用所述最優(yōu)的投影分類器完成對(duì)待測(cè)機(jī)器錯(cuò)誤數(shù)據(jù)的類別預(yù)測(cè)和檢索分類,得 到所述測(cè)試集中待測(cè)數(shù)據(jù)的軟類別標(biāo)簽,根據(jù)所述軟類別標(biāo)簽中的概率最大值找到對(duì)應(yīng)的 位置,確定測(cè)試樣本的類別,得到所述機(jī)器錯(cuò)誤數(shù)據(jù)的魯椿分類。
[0013] 優(yōu)選地,利用標(biāo)簽預(yù)測(cè)方法通過直推式方式估計(jì)得到訓(xùn)練集中的未標(biāo)定樣本數(shù)據(jù) 的類別標(biāo)簽前還包括:
[0014] 獲取原始的樣本數(shù)據(jù)集合,將所述樣本數(shù)據(jù)集合劃分為訓(xùn)練集和測(cè)試集,所述訓(xùn) 練集中包含已標(biāo)記的訓(xùn)練樣本和未標(biāo)記的訓(xùn)練樣本,所述已標(biāo)記的訓(xùn)練樣本和所述未標(biāo)記 的訓(xùn)練樣本的機(jī)器數(shù)據(jù)向量集合義=[式,式;]e膝n是機(jī)器數(shù)據(jù)的維度,1是已標(biāo)記 訓(xùn)練樣本的數(shù)量,U是未標(biāo)記訓(xùn)練樣本數(shù)量,其中包含有c(c〉2)個(gè)類別標(biāo)簽的訓(xùn)練樣本集 Z王=h,X2,...,刮e吸和無(wú)任何標(biāo)簽的訓(xùn)練樣本集而=[和1,乂W,...,相,,]€吸"<",其中 任意向量X, €阪為機(jī)器數(shù)據(jù)樣本,1+U=N,所述測(cè)試集中的測(cè)試樣本全部未標(biāo)記。
[0015] 優(yōu)選地,根據(jù)所述新訓(xùn)練集中的機(jī)器錯(cuò)誤數(shù)據(jù)及其標(biāo)簽信息,進(jìn)行標(biāo)簽一致字典 學(xué)習(xí)包括;預(yù)設(shè)D為學(xué)習(xí)得到的所述可重構(gòu)字典,S是訓(xùn)練集的所述判別稀疏編碼,AS為所 述自適應(yīng)權(quán)重編碼,P代表一個(gè)所述投影分類器;
[0016]
[0017]Subjl|sj|〇《Ti,iG{j|j= 1,2,...,N}
[001引其中,||X-說?底是重構(gòu)誤差,。=[4…屯-]€熙"-,Ti是稀疏約束,叫皮xw,[001引 Si定義如下;
[0020]
[00川 ||0-的I丘為判別稀疏編碼誤差,其中0 = [A…如]€化KXW為訓(xùn)練數(shù)據(jù)集的判別稀 疏編碼,a是該項(xiàng)的權(quán)衡參數(shù);
[0022] 當(dāng)訓(xùn)練樣本X郝Xj.屬于不同類別時(shí),所述訓(xùn)練樣本X郝Xj在Q中對(duì)應(yīng)的項(xiàng)為0, 否則訓(xùn)練樣本Xi和Xj在Q中對(duì)應(yīng)的項(xiàng)為cos(Xi,Xj);
[0023]
曼累積的鄰域重構(gòu)誤差,e是該項(xiàng)的權(quán)衡參 數(shù);
[0024]
良示分類誤差,戶e岐"X%pT;c,.e胺"1最大元素對(duì)應(yīng)的位置表示X;的軟 標(biāo)簽,y康示Xi的調(diào)整參數(shù),當(dāng)訓(xùn)練集中Xi的標(biāo)簽已知時(shí),對(duì)應(yīng)的y1= 1〇1°,否則= 0。
[0025] 優(yōu)選地,利用所述最優(yōu)的投影分類器完成對(duì)待測(cè)機(jī)器錯(cuò)誤數(shù)據(jù)的類別預(yù)測(cè)和檢索 分類,得到所述測(cè)試集中待測(cè)數(shù)據(jù)的軟類別標(biāo)簽包括:
[002引得到測(cè)試樣本X。。內(nèi),利用PTx。。,將其嵌入計(jì)算得到多類投影分類器,所得向量 的最大元素對(duì)應(yīng)的位置即為待測(cè)樣本X。。,的軟標(biāo)簽,每個(gè)測(cè)試樣本的硬標(biāo)簽可W被歸結(jié)為 argmaXi《。也Ji,其中eIRW,(f。J康示預(yù)測(cè)的軟標(biāo)簽向量f。。,第i個(gè)元素位 置。
[0027] 本發(fā)明還提供了一種魯椿機(jī)器錯(cuò)誤檢索系統(tǒng),包括:
[0028] 訓(xùn)練預(yù)處理模塊,用于利用標(biāo)簽預(yù)測(cè)方法通過直推式方式估計(jì)得到訓(xùn)練集中的未 標(biāo)定樣本數(shù)據(jù)的類別標(biāo)簽,生成包括所有有標(biāo)定的樣本數(shù)據(jù)的新訓(xùn)練集;
[0029] 訓(xùn)練模塊,用于根據(jù)所述新訓(xùn)練集中的機(jī)器錯(cuò)誤數(shù)據(jù)及其標(biāo)簽信息,進(jìn)行標(biāo)簽一 致字典學(xué)習(xí),得到判別稀疏編碼,利用所述判別系數(shù)編碼構(gòu)造自適應(yīng)權(quán)重系數(shù),得到自適應(yīng) 重構(gòu)系數(shù)矩陣,根據(jù)所述自適應(yīng)重構(gòu)系數(shù)矩陣得到一個(gè)投影分類器,利用所述投影分類器 對(duì)訓(xùn)練集中的未標(biāo)定的樣本數(shù)據(jù)的類別信息進(jìn)行更新;
[0030] 迭代模塊,用于通過多次迭代訓(xùn)練,得到一個(gè)判別的可重構(gòu)字典,一個(gè)機(jī)器錯(cuò)誤數(shù) 據(jù)的判別稀疏編碼,W及一個(gè)最優(yōu)的投影分類器;
[0031] 測(cè)試模塊,用于利用所述最優(yōu)的投影分類器完成對(duì)待測(cè)機(jī)器錯(cuò)誤數(shù)據(jù)的類別預(yù)測(cè) 和檢索分類,得到所述測(cè)試集中待測(cè)數(shù)據(jù)的軟類別標(biāo)簽,根據(jù)所述軟類別標(biāo)簽中的概率最 大值找到對(duì)應(yīng)的位置,確定測(cè)試樣本的類別,得到所述機(jī)器錯(cuò)誤數(shù)據(jù)的魯椿分類。
[0032] 應(yīng)用本發(fā)明提供的一種魯椿機(jī)器錯(cuò)誤檢索方法與系統(tǒng),首先利用標(biāo)簽估計(jì)方法對(duì) 訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理,估計(jì)出未標(biāo)定機(jī)器數(shù)據(jù)的標(biāo)簽,并初始化一個(gè)投影分類器?;谟?xùn) 練樣本的類別信息,進(jìn)行標(biāo)簽一致字典學(xué)習(xí),利用得到的判別稀疏編碼構(gòu)造標(biāo)簽預(yù)測(cè)模型 中的自適應(yīng)重構(gòu)權(quán),通過計(jì)算新的投影分類器來(lái)更新無(wú)標(biāo)簽訓(xùn)練數(shù)據(jù)的類信息。通過多次 迭代訓(xùn)練,輸出一個(gè)判別的可重構(gòu)字典,一個(gè)稀疏編碼矩陣和一個(gè)最優(yōu)多類分類器。訓(xùn)練得 到的分類器可用于新來(lái)數(shù)據(jù)的歸納和類別預(yù)測(cè),根據(jù)軟標(biāo)簽中的概率最大值對(duì)應(yīng)的位置, 確定測(cè)試樣本的類別,完成機(jī)器錯(cuò)誤數(shù)據(jù)魯椿分類。通過提出半監(jiān)督標(biāo)簽一致字典學(xué)習(xí)方 法,豐富了監(jiān)督的先驗(yàn)信息,有效提高了機(jī)器錯(cuò)誤檢索的精準(zhǔn)度。
【附圖說明】
[0033] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0034] 圖1為本發(fā)明實(shí)施例公開的一種機(jī)器錯(cuò)誤數(shù)據(jù)分類方法的流程圖;
[00巧]圖2為本發(fā)明實(shí)施例公開的一種機(jī)器錯(cuò)誤數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0036] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保