數據處理設備和數據處理方法

文檔序號：10665759閱讀：817來源：國知局

數據處理設備和數據處理方法
【專利摘要】提供一種數據處理設備和數據處理方法。數據處理設備包括：獲取裝置，用于根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及訓練數據集選擇裝置，通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
【專利說明】
數據處理設備和數據處理方法
技術領域
[0001] 本發(fā)明涉及一種數據處理技術，具體地涉及用于在數據預測中使用的數據處理設備和數據處理方法。
【背景技術】
[0002] 隨著互聯網的發(fā)展和大數據的應用需求，多樣式的數據急劇增長，其中有一種數據為帶有時間序列的數據，通過已經發(fā)生的數據或歷史數據，可以采用相關算法（分類、預測及推薦算法）來對未來的數據進行預測分析。
[0003] 雖然相關算法可以使用歷史的所有數據作為訓練數據集，但是不是所有的訓練數據集都有作用，部分數據存在一定量的噪音數據。

【發(fā)明內容】

[0004] 鑒于以上問題作出本發(fā)明。根據本公開一種實施方式，提供了一種數據處理設備，所述信息處理設備包括：獲取裝置，用于根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及訓練數據集選擇裝置，通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試集數據進行分類。
[0005] 根據本公開另一種實施方式，還提供一種數據處理方法，包括以下步驟：根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
[0006] 根據本發(fā)明的公開，至少獲得以下有益技術效果：相對于現有技術更準確地獲得未來數據的分類。
【附圖說明】
[0007] 參照下面結合附圖對本發(fā)明實施例的說明，會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件不是成比例繪制的，而只是為了示出本發(fā)明的原理。為了便于示出和描述本發(fā)明的一些部分，附圖中對應部分可能被放大，即，使其相對于在依據本發(fā)明實際制造的示例性裝置中的其它部件變得更大。在附圖中，相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。
[0008] 圖1示出了根據本公開實施方式的數據處理設備的示意框圖。
[0009] 圖2是示出訓練數據集和測試數據集的例子的圖。
[0010] 圖3示出數據處理設備中的獲取裝置的進一步配置。
[0011] 圖4示出分類器訓練單元的一個示例具體配置。
[0012] 圖5(a)和圖5(b)示出去噪子單元和預測子單元進行的操作的具體示例。
[0013] 圖6示出最優(yōu)數據類型獲取單元進一步的具體配置例子。
[0014] 圖7示出根據本發(fā)明實施方式的數據處理方法的流程圖。
[0015] 圖8示出去噪和最優(yōu)類型獲取的步驟的詳細子步驟。
[0016] 圖9示出去噪和預測操作步驟的詳細子步驟。
[0017] 圖10示出最優(yōu)類型獲取步驟的詳細子步驟。
[0018] 圖11示出測試數據集分類步驟的詳細子步驟。
[0019] 圖12示出了可作為用來實現根據本發(fā)明實施例的數據處理方法的數據處理設備的通用計算機系統(tǒng)的結構簡圖。
【具體實施方式】
[0020] 下面參照附圖來說明本公開的實施例。在本公開的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應當注意，為了清楚的目的，附圖和說明中省略了與本公開無關的、本領域普通技術人員已知的部件和處理的表示和描述。
[0021] 圖1示出了根據本公開實施方式的數據處理設備100的示意框圖。該數據處理設備100包括獲取裝置110和訓練數據集選擇裝置120。其中，獲取裝置110根據預定規(guī)則選擇歷史數據作為訓練數據集并且將歷史數據劃分為子訓練數據集和子測試數據集，根據子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器，對子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型。其中，預定規(guī)則的例子比如可以是根據訓練數據集和測試數據集的數目比例等。訓練數據集選擇裝置120通過在該最優(yōu)數據類型下對訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試集數據進行分類。本發(fā)明在采用何種分類器方面不受限制，可以采用比如樸素貝葉斯分類器、決策樹等分類器。
[0022] 下面結合圖2來描述上述訓練數據集和測試數據集的例子。在圖2所示的例子中，測試數據集可以為時序數據集。
[0023] 在圖2中，示出了測試數據集的示例，其為2014年1月至2014年5月的數據，其預先預測的類別比例以深色虛線示出。需要注意，該虛線所示是預測的比例Ry以用于稍后確定訓練數據集用，其并不是最終確定的類別比例。在圖2的例子中，采取例如2014年1 月以前、比如2010年1月至2013年12月的數據為歷史數據，即訓練數據集。如圖2所示，將訓練數據集劃分為兩部分：分別是子訓練數據集和子測試數據集，其類別比例分別以實線和虛線示出。其中，子訓練數據集是從2010年1月至2013年8月，而子測試數據集是從 2013年9月至2013年12月。劃分子訓練數據集和子測試數據集的方法可以是比如根據歷史數據（訓練數據集）和未來數據（測試數據集）的數據量的比例，也可以采用其他方法來劃分，例如可以是經驗方式或通過有限的實驗方式來劃分，本發(fā)明在此不受限制。
[0024] 下面結合圖3描述上述獲取裝置110的進一步配置。如圖3所示，獲取裝置110 包括分類器訓練單元310和最優(yōu)數據類型獲取單元320。
[0025] 分類器訓練單元310用于針對每個數據類型，對上述子訓練數據集中的數據進行去噪，通過去噪后的子訓練數據集對分類器進行訓練，以及利用經訓練的分類器對上述子測試數據集進行預測。
[0026] 最優(yōu)數據類型獲取單元320可以比較在每個數據類型下預測子測試數據集的預測結果，并基于比較結果選擇與最優(yōu)預測結果對應的數據類型作為最優(yōu)數據類型。該比較可以是基于Auc(Area Under ROC Curve，R0C曲線下面積）、準確率或召回率等評價指標。
[0027] 下面參考圖4描述分類器訓練單元310的一個示例具體配置。
[0028] 如圖4所示，分類器訓練單元310包括去噪子單元410和預測子單元420。其中去噪子單元410用于針對在數據類型下、子訓練數據集所包括的多個數據組中的每個數據組，執(zhí)行去噪操作。該去噪操作包括對該數據組中的數據進行聚類，利用離聚類中心距離遠的范圍去除數據組中的噪聲數據，以及將去除了噪聲數據的各個數據組中的數據合并作為去噪數據集，其中數據組中的數據針對同一數據類型具有相同的數據屬性。預測子單元 420用于執(zhí)行預測操作，預測操作包括利用去噪數據集訓練分類器，并且通過經訓練的分類器對子測試數據集的數據進行預測。
[0029] 下面參照圖5(a)和圖5(b)來描述去噪子單元410和預測子單元420進行的操作的具體示例。在該示例中，假設學習算法為二分類算法，且為了描述簡便，假設數據只有兩種類型的標簽label 1和label 2。在已獲取的歷史數據中，類別標簽是非平衡的。本文的任務即是根據歷史數據的標簽信息，預測未來數據的標簽信息。
[0030] 去噪子單元410所針對的數據類型可以是數據集中的屬性，該屬性可以被稱為組，比如可以是公司名、項目名、年月日小時這樣的周期屬性。由于數據的特征與數據類型有關，根據不同的數據類型，從數據所提的特征也不相同。在每一個數據類型或其組合的條件下，提取樣本點的特征，從而將數據分成每個數據類型下的多個數據組。去噪子單元410 的去噪操作所針對的對象可以是這樣形成的每個數據類型下的多個數據組。
[0031] 下面描述去噪操作的具體示例。首先對數據組中的數據進行聚類，將數據組中的數據聚為2類。聚類方法可以采用基于劃分方法的k-means，層次聚類，或者基于密度聚類 DBSCAN等，本發(fā)明在此不受限制。經聚類的數據組被分成兩簇，如圖5(a)和圖5(b)所示分別被標為簇1和簇2。為便于描述，在圖5(a)和圖5(b)中將特征示為是二維的，然而應理解本發(fā)明也可應用于多維特征的情況。
[0032] 如上所述，本發(fā)明以不平衡二分類算法為例進行說明。在不平衡二分類算法中，有兩個不同的標簽（label) :label 1和label 2,其中l(wèi)abel 1的個數遠大于label 2的個數。在圖5(&)和圖5〇3)，為清楚圖示，以實心圓表示1&匕611，以三角形表示1 &匕612。在上述聚類步驟中，如果某一簇中標簽為label 1的樣本個數占多數，則該簇被稱為正簇，另一個簇被稱為負簇。比如在圖5中，簇1為正簇，簇2為負簇。由于標簽label 1樣本的個數遠大于標簽為label 2樣本的個數，為求得最佳的類別比例從而訓練分類器，在負簇中帶有標簽為label 1的樣本被稱為噪聲樣本點，就不再考慮在正簇中帶有標簽為label 2的樣本。
[0033] 對聚類后的數據進行去噪的方法可以根據到聚類后的簇中心點的距離。在聚類之后利用離聚類中心遠的范圍去除數據組中的噪聲數據。下面結合圖5(a)和圖5(b)描述去除噪聲的一個具體示例。如圖5(a)所示，在作為正簇的簇1中，找到簇的中心，計算噪聲和中心點的距離，按照距離遠近去除噪聲。設定簇的中心到噪聲的最遠距離為L。設定步長 t，t的范圍是從0到100%，通過步長t獲取新的最遠距離Lnew，Lnew = L*(l-t)。將以簇的中心為圓心，半徑從Lnew到L中間的點記為要去除的噪聲，并將該點去除。如圖5(b)所示，去除的噪聲以空心圓來表示。注意，距離計算公式不受限制，例如可以采用樣本點i和 j的歐式距離：
[0034]
[0035] 其中，Xll表示樣本點i的第一維特征值，X ]1表示樣本點j的第一維特征值，依此類推。
[0036] 去噪子單元410將去除了噪聲數據的各個數據組中的數據進行合并作為去噪數據集，其中各數據組中的數據針對同一數據類型具有相同的數據屬性。
[0037] 下面描述預測子單元420執(zhí)行預測操作的示例。預測子單元420在去噪數據集上建立分類模型以訓練分類器，并在子測試數據集上進行預測，以獲取其評價指標分數比如 Auc (Area Under roc Curve)、準確率、召回率等評價指標。
[0038] 上述最優(yōu)數據類型獲取單元320進行的在每個數據類型下預測的子測試數據集的預測結果的比較可以是基于上述Auc、準確率或召回率等評價指標。如上所述，訓練數據集選擇裝置120可以在該最優(yōu)數據類型下對包括子訓練數據集和子測試數據集的訓練數據集中的數據再進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
[0039] 根據一種實施方式，可以在最優(yōu)數據類型獲取單元320獲得其最優(yōu)數據類型之后，不直接將最優(yōu)數據類型呈現給訓練數據集選擇裝置120。而是，分類器訓練單元310針對每個數據類型，對子訓練數據集繼續(xù)執(zhí)行上述去噪操作和預測操作，即執(zhí)行多次去噪操作和預測操作。比如去噪子單元410針對在第1次去噪操作之后獲得的去噪數據集中包括的每個數據組進行第2次去噪操作，以獲得對應于第2次去噪操作的去噪數據集。具體地，去噪子單元410再次執(zhí)行聚類操作，分析出正簇和負簇，計算當前中心點到噪聲的最遠距離L'，根據步長t獲取新的距離L' new，L' new = L' * (Ι-t)，從而根據該新距離去除噪聲。預測子單元420通過利用對應于該第2次去噪操作的去噪數據集訓練分類器，并且通過經訓練的分類器對子測試數據集的數據進行預測來執(zhí)行第2次預測操作，且獲取其評價指標分數比如Auc、準確率、召回率等評價指標。分類器訓練單元310可以更多次地執(zhí)行上述去噪操作和預測操作，不限于兩次。
[0040] 然后由最優(yōu)數據類型獲取單元320選擇多次去噪和預測操作中的一次操作對應的預測結果作為當前數據類型下的最優(yōu)預測結果。下面參考圖6描述最優(yōu)數據類型獲取單元320為進行此操作進一步的具體配置例子。
[0041] 如圖6所示，最優(yōu)數據類型獲取單元320包括預測結果驗證子單元610和數據類型選擇子單元620。其中，預測結果驗證子單元610用于針對每個數據類型，對通過針對該數據類型執(zhí)行的η次（η多2)去噪操作和預測操作所獲得的η個預測結果中的每個預測結果進行比較，并基于比較結果，選擇其中一次去噪操作和預測操作對應的預測結果作為該數據類型下的預測結果，其中該次去噪操作和預測操作對應的預測結果為該數據類型下的所述η個預測結果中最優(yōu)的預測結果。數據類型選擇子單元620用于將每個數據類型下的預測結果進行比較，并選擇與最優(yōu)預測結果對應的數據類型作為最優(yōu)數據類型。
[0042] 下面描述預測結果驗證子單元610選擇各數據類型下的最優(yōu)預測結果的操作的具體示例。在上述聚類、去噪的迭代過程中，預測結果驗證子單元610按照同樣的子測試數據集和同樣的評價指標計算預測結果的差值，當差值滿足I Eva-Evalast |〈D時，可以選擇本次訓練模型為最優(yōu)，也可以選擇上次訓練模型為最優(yōu)，其中Eva是本次訓練模型的評價分數，E Valast是上次訓練模型的評價分數，D是預先設置的差異上限參數。預測結果驗證子單元610選擇最優(yōu)預測結果的過程不限于此，也可以是比如選擇滿足提前設置的閾值的預測結果作為最優(yōu)預測結果。比如，提前設置閾值0.8,當label 1/label 2的類別預測比例滿足0. 8或與0. 8之差的絕對值在一定范圍內時，就可以認為當前預測結果為最優(yōu)。
[0043] 以上描述了選擇最優(yōu)預測結果的例子。進行選擇的操作不限于以上公開的示例，進行評價的評價指標也不受限制?？梢栽跐M足|Eva-Eva last|〈D或其他設置條件時停止迭代，也可以不停止迭代，本發(fā)明在此也不受限制。
[0044] 下面描述數據類型選擇子單元620選擇最優(yōu)數據類型的操作例子。數據類型選擇子單元620可以記錄在最優(yōu)模型下使用的數據文件，最優(yōu)模型下使用的子訓練數據集中的類別正負比例，還可以記錄在迭代過程中刪除的噪音數據，并計算在最優(yōu)模型情況下，中心點到仍存在的噪音數據樣本點的最小距離Lmin。數據類型選擇子單元620將每個數據類型下的最優(yōu)預測結果進行比較，并選擇與最優(yōu)預測結果對應的數據類型作為最優(yōu)數據類型 G*，以及在最優(yōu)的數據類型下最優(yōu)的類別比例R*(G*)。數據類型選擇子單元620也可以獲取數據類型組合G*，以及在最優(yōu)數據類型組合下最優(yōu)的類別比例R*(G*)。
[0045] 在如此選擇了最優(yōu)數據類型之后，訓練數據集選擇裝置120可以執(zhí)行操作，即在最優(yōu)數據類型下，針對訓練數據集（包括子訓練數據集和子測試數據集）包括的所有數據進行聚類和去噪，該進一步的聚類和去噪操作可以執(zhí)行一次或多次，直到聚類和去噪操作之后獲得的訓練數據集中的數據的類別比例Rt滿足預定條件為止。
[0046] 在上述訓練數據集選擇裝置120針對最優(yōu)數據類型執(zhí)行的聚類和去噪過程中，可以使用Lmin/Lmax來優(yōu)化選取的步長t，從而在已知優(yōu)化的步長t的情況下減少迭代過程。這是因為每一次迭代都需要構件分類模型、消耗時間，而得到優(yōu)化的步長t可以有助于更快地進行計算。
[0047] 上述預定條件可以是：| Rt/Ry_R*/Rx | < D'
[0048] 其中，Rx為所述子測試數據集中數據的類別比例，Ry為采用ARMA、SVR算法等預先預測的測試數據集中數據的類別比例，R*如上所述為最優(yōu)數據類型組合下最優(yōu)的類別比例。D'為預先設置的誤差上限參數，其可以是個經驗值，由本領域技術人員根據需要的迭代次數、對類別比例的要求等確定，本發(fā)明在此不受限制。
[0049] 另外，預定條件也可以根據具體情況進行其他選擇，比如還可以是Rt/Ry多R*/ Rx。本領域技術人員可以根據實際需要進行設定。
[0050] 根據本發(fā)明另一實施方式，還提供一種數據處理方法S700。如圖7所示，該數據處理方法包括：在步驟S710中，根據預定規(guī)則選擇歷史數據作為訓練數據集，將歷史數據劃分為子訓練數據集和子測試數據集。其中，劃分子訓練數據集和子測試數據集的方法可以采用如上關于數據處理設備100參照圖2所示的方法。在步驟S720中，根據子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器，對子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型。在步驟S730中，在該最優(yōu)數據類型下對訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
[0051] 其中，步驟S710中，測試數據集可以是時序數據集，且歷史數據的選擇可以是基于測試數據集中數據所處的時間段。
[0052] 其中，如圖8所示，進行去噪和最優(yōu)類型獲取的步驟S720可以包括：在步驟S810 中，針對每個數據類型，對子訓練數據集中的數據進行去噪，通過去噪后的子訓練數據集對分類器進行訓練，利用經訓練的分類器對子測試數據集進行預測。在步驟S820中，利用子測試數據集對在每個數據類型下預測子測試數據集的預測結果進行比較，基于比較結果，選擇與最優(yōu)預測結果對應的數據類型作為最優(yōu)數據類型。其中在步驟S820中的比較可以是基于上述Auc、準確率或召回率等評價指標。
[0053] 如圖9所示，步驟S810的去噪操作是針對在該數據類型下、子訓練數據集所包括的多個數據組中的每個數據組，而執(zhí)行的，且可進一步包括：在步驟S910中，對該數據組中的數據進行聚類。在步驟S920中，利用離聚類中心距離遠的范圍去除該數據組中的噪聲數據。該步驟的具體去噪操作請參見上述對圖5(a)和圖5(b)的描述。在步驟S930中，將去除了噪聲數據的各個數據組中的數據合并，作為去噪數據集，其中數據組中的數據針對數據類型具有相同的數據屬性。在步驟S940中，利用去噪數據集訓練分類器，通過經訓練的分類器對子測試數據集的數據進行預測。該預測可以獲取評價指標分數比如Auc、準確率或召回率等。
[0054] 其中，上述步驟S920至S940的去噪和預測操作可以執(zhí)行多次，直到滿足預定條件為止。該多次執(zhí)行的具體操作以及迭代停止條件可參考以上關于數據處理設備100的描述。
[0055] 如圖10所示，以上最優(yōu)類型獲取步驟S820還可以包括：在步驟S1010中，針對每個數據類型，對通過針對該數據類型執(zhí)行的多次去噪操作和預測操作所獲得的多個預測結果中的每個預測結果進行比較，并基于比較結果，選擇其中一次去噪操作和預測操作對應的預測結果作為該數據類型下的預測結果，該一次去噪操作和預測操作對應的預測結果為該數據類型下的多個預測結果中最優(yōu)的預測結果。該選擇最優(yōu)預測結果的具體操作可以參照以上關于預測結果驗證子單元610的描述。在步驟S1020中，比較每個數據類型下的預測結果，選擇與最優(yōu)預測結果對應的數據類型作為最優(yōu)數據類型。其具體操作可參考以上關于數據類型選擇子單元620的描述。
[0056] 如圖11所示，上述的步驟S730可以進一步包括如下訓練數據集選擇子步驟：在步驟S1110中，在最優(yōu)數據類型下，針對訓練數據集包括的所有數據進行聚類和去噪；在步驟 S1120中，判斷訓練數據集中的數據的類別比例Rt是否滿足預定條件。如果滿足，迭代結束，如果不滿足，返回執(zhí)行步驟S1110。
[0057] 上述預定條件可以是：Rt/Ry多R*/Rx，其中Rx為所述子測試數據集中數據的類別比例，Ry為采用ARMA、SVR算法等預測的測試數據集中數據的類別比例，R*如上所述為最優(yōu)數據類型組合下最優(yōu)的類別比例。
[0058] 因此，步驟S1020中，還可以包括如下子步驟：獲取與最優(yōu)預測結果對應的數據類別比例。
[0059] 需要說明的是，本發(fā)明實施例所述的方法的具體步驟可以與以上數據處理設備的部件操作相似地配置，因此，方法實施例中未詳述部分，請參見設備實施例中相應描述，這里不再贅述。
[0060] 根據本發(fā)明的其他實施例，可以在例如計算機、服務器等中配備根據本發(fā)明上述實施例的數據處理設備，從而使得其可以具備上述的各種數據處理功能。
[0061] 上面已通過框圖、流程圖和/或實施例進行了詳細描述，闡明了根據本發(fā)明的實施例的設備和/或方法的不同實施方式。當這些框圖、流程圖和/或實施例包含一個或多個功能和/或操作時，本領域的技術人員明白，這些框圖、流程圖和/或實施例中的各功能和/或操作可以通過各種硬件、軟件、固件或實質上它們的任意組合而單獨地和/或共同地實施。在一種實施方式中，本說明書中描述的主題的幾個部分可通過特定用途集成電路 (ASIC)、現場可編程門陣列（FPGA)、數字信號處理器（DSP)或其他集成形式實現。然而，本領域的技術人員會認識到，本說明書中描述的實施方式的一些方面能夠全部或部分地在集成電路中以在一個或多個計算機上運行的一個或多個計算機程序的形式（例如，以在一個或多個計算機系統(tǒng)上運行的一個或多個計算機程序的形式）、以在一個或多個處理器上運行的一個或多個程序的形式（例如，以在一個或多個微處理器上運行的一個或多個程序的形式）、以固件的形式、或以實質上它們的任意組合的形式等效地實施，并且，根據本說明書中公開的內容，設計用于本公開的電路和/或編寫用于本公開的軟件和/或固件的代碼完全是在本領域技術人員的能力范圍之內。
[0062] 在通過軟件或固件實現的情況下，可從存儲介質或網絡向具有專用硬件結構的計算機（例如圖12所示的通用計算機1200)安裝構成該軟件的程序，該計算機在安裝有各種程序時，能夠執(zhí)行各種功能。
[0063] 圖12是示出了可作為用來實現根據本發(fā)明實施例的數據處理方法的數據處理設備的通用計算機系統(tǒng)的結構簡圖。計算機系統(tǒng)1200只是一個示例，并非暗示對本發(fā)明的方法和裝置的使用范圍或者功能的局限。也不應將計算機系統(tǒng)1200解釋為對示例性操作系統(tǒng)1200中示出的任一組件或其組合具有依賴或需求。
[0064] 在圖12中，中央處理單元（CPU) 1201根據只讀存儲器（ROM) 1202中存儲的程序或從存儲部分1208加載到隨機存取存儲器（RAM) 1203的程序執(zhí)行各種處理。在RAM 1203中，還根據需要存儲當CPU 1201執(zhí)行各種處理等等時所需的數據。CPU 120UR0M 1202和RAM 1203經由總線1204彼此連接。輸入/輸出接口 1205也連接到總線1204。
[0065] 下述部件也連接到輸入/輸出接口 1205 :輸入部分1206 (包括鍵盤、鼠標等等）、輸出部分1207(包括顯示器，例如陰極射線管（CRT)、液晶顯示器（LCD)等，和揚聲器等）、存儲部分1208(包括硬盤等）、通信部分1209(包括網絡接口卡例如LAN卡、調制解調器等）。通信部分1209經由網絡例如因特網執(zhí)行通信處理。根據需要，驅動器1210也可連接到輸入/輸出接口 1205。可拆卸介質1211例如磁盤、光盤、磁光盤、半導體存儲器等等可以根據需要被安裝在驅動器1210上，使得從中讀出的計算機程序可根據需要被安裝到存儲部分1208中。
[0066] 在通過軟件實現上述系列處理的情況下，可以從網絡例如因特網或從存儲介質例如可拆卸介質1211安裝構成軟件的程序。
[0067] 本領域的技術人員應當理解，這種存儲介質不局限于圖12所示的其中存儲有程序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質1211。可拆卸介質1211的例子包含磁盤（包含軟盤）、光盤（包含光盤只讀存儲器（⑶-ROM)和數字通用盤（DVD))、磁光盤 (包含迷你盤（MD)(注冊商標））和半導體存儲器?；蛘?，存儲介質可以是ROM 1202、存儲部分1208中包含的硬盤等等，其中存有程序，并且與包含它們的設備一起被分發(fā)給用戶。
[0068] 因此，本發(fā)明還提出了一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機器讀取并執(zhí)行時，可執(zhí)行上述根據本發(fā)明實施例的圖像處理方法。相應地，用于承載這種程序產品的上面列舉的各種存儲介質也包括在本發(fā)明的公開中。
[0069] 在上面對本發(fā)明具體實施例的描述中，針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用，與其它實施方式中的特征相組合，或替代其它實施方式中的特征。
[0070] 應該強調，術語"包括/包含"在本文使用時指特征、要素、步驟或組件的存在，但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。涉及序數的術語"第一"，"第二"等并不表示這些術語所限定的特征、要素、步驟或組件的實施順序或者重要性程度，而僅僅是為了描述清楚起見而用于在這些特征、要素、步驟或組件之間進行標識。
[0071] 此外，本發(fā)明的各實施例的方法不限于按照說明書中描述的或者附圖中示出的時間順序來執(zhí)行，也可以按照其他的時間順序、并行地或獨立地執(zhí)行。因此，本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術范圍構成限制。
[0072] 根據以上公開可知，本發(fā)明的方案包括但不限于：
[0073] 1、一種數據處理設備，所述數據處理設備包括：
[0074] 獲取裝置，用于根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及
[0075] 訓練數據集選擇裝置，通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
[0076] 2、如方案1所述的數據處理設備，其中，所述測試數據集為時序數據集，所述獲取裝置基于所述測試數據集中數據所處的時間段選擇所述歷史數據以及將所述歷史數據劃分為子訓練數據集和子測試數據集。
[0077] 3、如方案1或2所述的數據處理設備，其中，所述獲取裝置包括：
[0078] 分類器訓練單元，用于針對每個數據類型，對所述子訓練數據集中的數據進行去噪，通過去噪后的子訓練數據集對分類器進行訓練，以及利用經訓練的分類器對所述子測試數據集進行預測；以及
[0079] 最優(yōu)數據類型獲取單元，用于利用所述子測試數據集對在每個數據類型下預測所述子測試集數據的預測結果進行驗證，并基于驗證結果，選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。
[0080] 4、如方案3所述的數據處理設備，其中，所述分類器訓練單元包括：
[0081] 去噪子單元，用于針對在該數據類型下、所述子訓練數據集所包括的多個數據組中的每個數據組，執(zhí)行去噪操作，所述去噪操作包括對該數據組中的數據進行聚類，利用離聚類中心距離遠的范圍去除所述數據組中的噪聲數據，以及將去除了所述噪聲數據的各個數據組中的數據合并作為去噪數據集，其中所述數據組中的數據針對所述數據類型具有相同的數據屬性；
[0082] 預測子單元，用于執(zhí)行預測操作，所述預測操作包括利用所述去噪數據集訓練分類器，并且通過經訓練的分類器對所述子測試數據集的數據進行預測。
[0083] 5、如方案4所述的數據處理設備，其中，所述分類器訓練單元用于針對每個數據類型，對所述子訓練數據集執(zhí)行η次所述去噪操作和所述預測操作，包括：
[0084] 所述去噪子單元針對在第η-1次去噪操作之后獲得的去噪數據集中包括的每個數據組進行第η次去噪操作，以獲得對應于第η次去噪操作的去噪數據集；
[0085] 所述預測子單元通過利用對應于第η次去噪操作的去噪數據集訓練分類器并且通過經訓練的分類器對所述子測試數據集的數據進行預測來執(zhí)行第η次預測操作，其中η 為大于等于2的整數。
[0086] 6、如方案5所述的數據處理設備，其中，所述最優(yōu)數據類型獲取單元包括：
[0087] 預測結果驗證子單元，用于針對每個數據類型，對通過針對該數據類型執(zhí)行的η 次所述去噪操作和所述預測操作所獲得的η個預測結果中的每個預測結果進行驗證，并基于驗證結果，選擇第X次去噪操作和預測操作對應的預測結果作為該數據類型下的預測結果，其中第X次去噪操作和預測操作對應的預測結果為該數據類型下的所述η個預測結果中最優(yōu)的預測結果，其中X為大于等于2小于等于η的整數；以及
[0088] 數據類型選擇子單元，用于將每個數據類型下的預測結果進行比較，并選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。
[0089] 7、如方案1-6中的任一項所述的數據處理設備，其中，訓練數據集選擇裝置被配置為：在所述最優(yōu)數據類型下，針對所述訓練數據集包括的所有數據進行聚類和去噪；
[0090] 所述訓練數據集選擇單元被配置為執(zhí)行m次聚類和去噪，直到第m次聚類和去噪之后獲得的訓練數據集中的數據的類別比例Rt滿足所述預定條件，其中m為大于等于1的整數。
[0091] 8、如方案7所述的數據處理設備，其中，所述預定條件為：
[0092] | Rt/Ry_R*/Rx | < D'
[0093] 其中，Rx為所述子測試數據集中數據的類別比例，Ry為預測的所述測試數據集中數據的類別比例，R*為與最優(yōu)預測結果對應的數據類別比例，D'為預先設置的誤差上限參數。
[0094] 9、如方案8所述的數據處理設備，其中，所述最優(yōu)數據類型獲取單元在獲取所述最優(yōu)預測結果時獲取與所述最優(yōu)預測結果對應的數據類別比例。
[0095] 10、如方案4-9中任一項所述的數據處理設備，其中，所述歷史數據和所述測試集數據為非平衡數據，所述去噪子單元用于將該數據類型下的每個數據組中的數據聚為2 類。
[0096] 11、一種數據處理方法，包括以下步驟：
[0097] 根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及
[0098] 通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
[0099] 12、如方案11所述的數據處理方法，其中，所述測試數據集為時序數據集，所述歷史數據是基于所述測試數據集中數據所處的時間段選擇的，以及將所述歷史數據劃分為子訓練數據集和子測試數據集。
[0100] 13、如方案11或12所述的數據處理方法，其中，針對每個數據類型，對所述子訓練數據集中的數據進行去噪，通過去噪后的子訓練數據集對分類器進行訓練，以及利用經訓練的分類器對所述子測試數據集進行預測；以及
[0101] 利用所述子測試數據集對在每個數據類型下預測所述子測試集數據的預測結果進行驗證，并基于驗證結果，選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。
[0102] 14、如方案13所述的數據處理方法，其中，進行去噪、訓練和預測的操作包括：
[0103] 針對在該數據類型下、所述子訓練數據集所包括的多個數據組中的每個數據組，執(zhí)行去噪操作，所述去噪操作包括對該數據組中的數據進行聚類，利用離聚類中心距離遠的范圍去除所述數據組中的噪聲數據，以及將去除了所述噪聲數據的各個數據組中的數據合并作為去噪數據集，其中所述數據組中的數據針對所述數據類型具有相同的數據屬性；
[0104] 執(zhí)行預測操作，所述預測操作包括利用所述去噪數據集訓練分類器，并且通過經訓練的分類器對所述子測試數據集的數據進行預測。
[0105] 15、如方案14所述的數據處理方法，其中，針對每個數據類型，對所述子訓練數據集執(zhí)行η次所述去噪操作和所述預測操作，包括：
[0106] 針對在第η-1次去噪操作之后獲得的去噪數據集中包括的每個數據組進行第η次去噪操作，以獲得對應于第η次去噪操作的去噪數據集；
[0107] 通過利用對應于第η次去噪操作的去噪數據集訓練分類器并且通過經訓練的分類器對所述子測試數據集的數據進行預測來執(zhí)行第η次預測操作，其中η為大于等于2的整數。
[0108] 16、如方案15所述的數據處理方法，其中，選擇最優(yōu)數據類型包括：
[0109] 針對每個數據類型，對通過針對該數據類型執(zhí)行的η次所述去噪操作和所述預測操作所獲得的η個預測結果中的每個預測結果進行驗證，并基于驗證結果，選擇第X次去噪操作和預測操作對應的預測結果作為該數據類型下的預測結果，其中第X次去噪操作和預測操作對應的預測結果為該數據類型下的所述η個預測結果中最優(yōu)的預測結果，其中X為大于等于2小于等于η的整數；以及
[0110] 將每個數據類型下的預測結果進行比較，并選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。
[0111] 17、如方案11-16中的任一項所述的數據處理方法，其中，在所述最優(yōu)數據類型下，針對所述訓練數據集包括的所有數據進行聚類和去噪；
[0112] 執(zhí)行m次聚類和去噪，直到第m次聚類和去噪之后獲得的訓練數據集中的數據的類別比例Rt滿足所述預定條件，其中m為大于等于1的整數。
[0113] 18、如方案17所述的數據處理方法，其中，所述預定條件為：
[0114] | Rt/Ry R*/' | < D，
[0115] 其中，Rx為所述子測試數據集中數據的類別比例，Ry為預測的所述測試數據集中數據的類別比例，R*為與最優(yōu)預測結果對應的數據類別比例，D'為預先設置的誤差上限參數。
[0116] 19、如方案18所述的數據處理方法，其中，在獲取所述最優(yōu)預測結果時獲取與所述最優(yōu)預測結果對應的數據類別比例。
[0117] 盡管上面已經通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露，但是，應該理解，本領域的技術人員可在所附權利要求的精神和范圍內設計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應當被認為包括在本發(fā)明的保護范圍內。
【主權項】
1. 一種數據處理設備，所述數據處理設備包括：獲取裝置，用于根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu)數據類型；以及訓練數據集選擇裝置，通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。2. 如權利要求1所述的數據處理設備，其中，所述測試數據集為時序數據集，所述獲取裝置基于所述測試數據集中數據所處的時間段選擇所述歷史數據以及將所述歷史數據劃分為子訓練數據集和子測試數據集。3. 如權利要求1或2所述的數據處理設備，其中，所述獲取裝置包括：分類器訓練單元，用于針對每個數據類型，對所述子訓練數據集中的數據進行去噪，通過去噪后的子訓練數據集對分類器進行訓練，以及利用經訓練的分類器對所述子測試數據集進行預測；以及最優(yōu)數據類型獲取單元，用于利用所述子測試數據集對在每個數據類型下預測所述子測試集數據的預測結果進行驗證，并基于驗證結果，選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。4. 如權利要求3所述的數據處理設備，其中，所述分類器訓練單元包括：去噪子單元，用于針對在該數據類型下、所述子訓練數據集所包括的多個數據組中的每個數據組，執(zhí)行去噪操作，所述去噪操作包括對該數據組中的數據進行聚類，利用離聚類中心距離遠的范圍去除所述數據組中的噪聲數據，以及將去除了所述噪聲數據的各個數據組中的數據合并作為去噪數據集，其中所述數據組中的數據針對所述數據類型具有相同的數據屬性；預測子單元，用于執(zhí)行預測操作，所述預測操作包括利用所述去噪數據集訓練分類器，并且通過經訓練的分類器對所述子測試數據集的數據進行預測。5. 如權利要求4所述的數據處理設備，其中，所述分類器訓練單元用于針對每個數據類型，對所述子訓練數據集執(zhí)行η次所述去噪操作和所述預測操作，包括：所述去噪子單元針對在第η-1次去噪操作之后獲得的去噪數據集中包括的每個數據組進行第η次去噪操作，以獲得對應于第η次去噪操作的去噪數據集；所述預測子單元通過利用對應于第η次去噪操作的去噪數據集訓練分類器并且通過經訓練的分類器對所述子測試數據集的數據進行預測來執(zhí)行第η次預測操作，其中η為大于等于2的整數。6. 如權利要求5所述的數據處理設備，其中，所述最優(yōu)數據類型獲取單元包括：預測結果驗證子單元，用于針對每個數據類型，對通過針對該數據類型執(zhí)行的η次所述去噪操作和所述預測操作所獲得的η個預測結果中的每個預測結果進行驗證，并基于驗證結果，選擇第X次去噪操作和預測操作對應的預測結果作為該數據類型下的預測結果，其中第X次去噪操作和預測操作對應的預測結果為該數據類型下的所述η個預測結果中最優(yōu)的預測結果，其中X為大于等于2小于等于η的整數；以及數據類型選擇子單元，用于將每個數據類型下的預測結果進行比較，并選擇與最優(yōu)預測結果對應的數據類型作為所述最優(yōu)數據類型。7. 如權利要求1-6中的任一項所述的數據處理設備，其中，訓練數據集選擇裝置被配置為：在所述最優(yōu)數據類型下，針對所述訓練數據集包括的所有數據進行聚類和去噪；所述訓練數據集選擇單元被配置為執(zhí)行m次聚類和去噪，直到第m次聚類和去噪之后獲得的訓練數據集中的數據的類別比例Rt滿足所述預定條件，其中m為大于等于1的整數。8. 如權利要求7所述的數據處理設備，其中，所述預定條件為： Rt/Ry-R*/Rx| < D' 其中，Rx為所述子測試數據集中數據的類別比例，Ry為預測的所述測試數據集中數據的類別比例，R*為與最優(yōu)預測結果對應的數據類別比例，D'為預先設置的誤差上限參數。9. 如權利要求8所述的數據處理設備，其中，所述最優(yōu)數據類型獲取單元在獲取所述最優(yōu)預測結果時獲取與所述最優(yōu)預測結果對應的數據類別比例。10. -種數據處理方法，包括以下步驟：根據預定規(guī)則選擇歷史數據作為訓練數據集并且將所述歷史數據劃分為子訓練數據集和子測試數據集，根據所述子訓練數據集中數據的屬性或屬性的組合獲取關于數據類型的信息，并且針對每個數據類型，通過利用在該數據類型下去噪后的子訓練數據集所訓練的分類器對所述子測試數據集進行預測并驗證預測結果，以獲得具有最優(yōu)預測結果的最優(yōu) 數據類型；以及通過在該最優(yōu)數據類型下對所述訓練數據集中的數據進行去噪，來獲得類別比例滿足預定條件的訓練數據集，以通過利用該滿足預定條件的訓練數據集所訓練的分類器對測試數據集進行分類。
【文檔編號】G06F17/30GK106033425SQ201510106455
【公開日】2016年10月19日
【申請日】2015年3月11日
【發(fā)明人】孫健, 夏迎炬, 楊銘
【申請人】富士通株式會社

完整全部詳細技術資料下載