午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種自動化數(shù)據(jù)挖掘預處理方法

文檔序號:9687551閱讀:571來源:國知局
一種自動化數(shù)據(jù)挖掘預處理方法
【技術領域】
[0001 ]本發(fā)明屬于數(shù)據(jù)挖掘領域,更具體地,設及一種自動化數(shù)據(jù)挖掘預處理方法。
【背景技術】
[0002] 在數(shù)據(jù)挖掘的工程應用中,數(shù)據(jù)預處理往往占到了80%甚至更多工作。學者們已 經(jīng)對數(shù)據(jù)挖掘的方法已經(jīng)進行了大量的研究,并取得了一定的成果,但是,數(shù)據(jù)挖掘預處 理,特別是如何自動化的進行數(shù)據(jù)預處理,仍然是一個問題。目前,已有一些企業(yè)和研究機 構提出了一些數(shù)據(jù)挖掘預處理的方法。
[0003] 例如,中國發(fā)明CN200910236744.2中提出了一種數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)預處理的方 法、系統(tǒng)及裝置,其中,數(shù)據(jù)預處理對應具有設定執(zhí)行次序的多個預處理方式,主要技術方 案包括:確定數(shù)據(jù)預處理對應的當前預處理方式;在確定若根據(jù)當前預處理方式處理得到 的處理結果無需合并并且當前預處理方式不為數(shù)據(jù)預處理的最后一個預處理方式時,在各 操作節(jié)點根據(jù)當前預處理方式處理待處理數(shù)據(jù)后,控制各操作節(jié)點對得到的處理結果根據(jù) 當前預處理方式的下一預處理方式進行處理。根據(jù)該技術方案,減少了不同節(jié)點之間由于 待處理數(shù)據(jù)的讀取W及處理結果的寫入而需要的傳輸過程,提高了數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)預 處理的效率,提高了整個數(shù)據(jù)挖掘系統(tǒng)的性能。該發(fā)明提出了一種高效的分布式數(shù)據(jù)預處 理方法,但是,無法對海量數(shù)據(jù)進行自動化數(shù)據(jù)預處理。
[0004] 中國發(fā)明申請CN201210337315.6公開了一種基于excel的數(shù)據(jù)挖掘方法,借助 excel工具和數(shù)據(jù)挖掘外接程序W及數(shù)據(jù)庫來進來數(shù)據(jù)挖掘,通過對企業(yè)多年的經(jīng)營的數(shù) 據(jù)或者生產(chǎn)的數(shù)據(jù)進行挖掘,根據(jù)數(shù)據(jù)挖掘算法發(fā)現(xiàn)的有用的模式,可W運用運些模式來 改善經(jīng)營策略,提高勞動生產(chǎn)率,減少成本,增加企業(yè)利潤。一般要進行數(shù)據(jù)挖掘需要專業(yè) 的人員和花費大量的金錢才能實現(xiàn),是一般中小企業(yè)所不能承受的。該發(fā)明闡述用excel來 實現(xiàn)數(shù)據(jù)挖掘,可W讓大部分懂excel的人都可W進行數(shù)據(jù)挖掘。該發(fā)明能讓數(shù)據(jù)挖掘預處 理變得更易操作,但是仍然需要耗費很大的工作量,無法對海量數(shù)據(jù)進行自動化數(shù)據(jù)預處 理。
[0005] 專利CN102609501A提出了一種基于實時歷史數(shù)據(jù)庫的數(shù)據(jù)預處理方法,設及到實 時歷史數(shù)據(jù)庫測點的創(chuàng)建、過程數(shù)據(jù)的采集、實時庫數(shù)據(jù)的查詢、數(shù)據(jù)特性分析,最后提出 了一種W闊值和倍率為參數(shù)的橫向清洗算法,將不同采集周期過程數(shù)據(jù)進行了描述,最終 得到了過程控制數(shù)據(jù)采集減少了不同節(jié)點之間由于待處理數(shù)據(jù)的讀取W及處理結果的寫 入而需要的傳輸過程,提高了數(shù)據(jù)挖掘系統(tǒng)中數(shù)據(jù)預處理的效率,提高了整個數(shù)據(jù)挖掘系 統(tǒng)的性能。該發(fā)明通過一種基于歷史數(shù)據(jù)庫的方法,能夠在一定程度上進行自動化的數(shù)據(jù) 預處理,但是缺乏反饋和參數(shù)控制,因此預處理的質量無法得到保障。

【發(fā)明內(nèi)容】

[0006] 針對現(xiàn)有技術的W上缺陷或改進需求,本發(fā)明提供了一種自動化數(shù)據(jù)挖掘預處理 方法,其目的在于,通過構建規(guī)則庫和樣本庫,將新數(shù)據(jù)與已有的樣本數(shù)據(jù)進行字段映射, 將新數(shù)據(jù)的字段變換成已有樣本庫中的特征字段,并使用相應的數(shù)據(jù)預處理方法進行自動 化的數(shù)據(jù)預處理;同時,通過對預處理結果進行評分和反饋,調(diào)整字段映射函數(shù),提高預處 理的質量。
[0007] 為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種自動化數(shù)據(jù)挖掘預處理方 法,包括W下步驟:
[0008] (1)建立數(shù)據(jù)庫和預處理規(guī)則庫,在該數(shù)據(jù)庫中新建數(shù)據(jù)表且標準化命名,將待預 處理數(shù)據(jù)進行抽樣后導入新建數(shù)據(jù)表中,同時對抽樣后的預處理數(shù)據(jù)的每一個字段的值 進行數(shù)理統(tǒng)計;
[0009] (2)提取數(shù)據(jù)表的關鍵字A、B和C,在預處理規(guī)則庫中查詢是否存在運些關鍵字,如 果不存在則進入步驟(3),如果存在則跳轉步驟(4);
[0010] (3)將數(shù)據(jù)表的關鍵字和所有字段添加到預處理規(guī)則庫中,然后跳轉到步驟(7);
[0011] (4)找到數(shù)據(jù)表中抽樣后的數(shù)據(jù)的所有字段,確定運些字段對應數(shù)值的類型,根據(jù) 數(shù)據(jù)表中的關鍵字和字段對應數(shù)值的類型是否與規(guī)則庫中的關鍵字及類型一致來判斷規(guī) 則庫中的字段是否符合數(shù)據(jù)表字段,如果符合則進入步驟(5),不符合則跳轉到步驟(7);
[0012] (5)計算數(shù)據(jù)表中的每一字段特征向量和規(guī)則庫中符合字段的特征向量,并根據(jù) 兩個特征向量之間的誤差判斷來修正誤差闊值ξ,進而修正并確立數(shù)據(jù)表字段和已有規(guī)則 庫中字段之間的映射關系;
[0013] (6)將所有待預處理數(shù)據(jù)導入到新建數(shù)據(jù)表中,按照規(guī)則庫中的數(shù)據(jù)預處理方法 對該數(shù)據(jù)進行數(shù)據(jù)預處理,并對預處理結果進行評估;
[0014] (7)采用分箱法和數(shù)據(jù)平滑法對所有預處理數(shù)據(jù)進行處理,W生成新的規(guī)則,并將 其添加到原有規(guī)則庫中。
[0015] (8)輸出步驟(6)和(7)的預處理結果,并記錄預處理日志。
[0016] 優(yōu)選地,步驟(1)包括W下子步驟:
[0017] (1.1)建立數(shù)據(jù)庫,同時建立預處理規(guī)則庫;
[001引(1.2)在數(shù)據(jù)庫中新建數(shù)據(jù)表且進行標準化命名,其命名規(guī)則為A+B+C+建表時間 的形式,其中Α、Β和C分別表示該數(shù)據(jù)表數(shù)據(jù)相關信息、代表的行業(yè)和行業(yè)的業(yè)務類型;
[0019] (1.3)將待預處理數(shù)據(jù)進行抽樣并導入數(shù)據(jù)表;
[0020] (1.4)對數(shù)據(jù)表中抽樣后的數(shù)據(jù)的每個字段的值進行數(shù)理統(tǒng)計,得到的數(shù)理統(tǒng)計 特性用于組成該數(shù)據(jù)的特征向量。
[0021] 優(yōu)選地,步驟(5)包括W下子步驟:
[0022] (5.1)設置計數(shù)器k = l;
[0023] (5.2)選擇抽樣后的待預處理數(shù)據(jù)的第k個字段,并計算它的特征向量λ,其中l(wèi)<k < n,n為待預處理數(shù)據(jù)所包括的字段總數(shù);
[0024] (5.3)選擇數(shù)據(jù)表中第k個字段對應的規(guī)則庫字段I,并計算其特征向量λ' ;
[0025] (5.4)設置計數(shù)器111=1;
[00%] (5.5)判斷是否有
成立,如果成立則跳至步驟巧.8 ),不滿足則進入步 驟(5.6);其中ξ為誤差闊值;
[0027] (5.6)使用邏輯回歸算法計算該第k個字段到規(guī)則庫中相應字段的映射關系fm (λ')=f(fm-l(λ')),其中fo(λ')=λ';
[0028] (5.7)判斷
是否有成立;如果不成立則設置m = m+l,并返回步驟 (5.6),如果成立則進入步驟(5.8);
[0029] (5.8)記錄并輸出數(shù)據(jù)表中該第k個字段與規(guī)則庫中對應字段的映射關系;
[0030] (5.9)判斷k是否等于n,即抽樣后的待預處理數(shù)據(jù)是否存在未處理的字段,如果不 等于,則設置k = k+l,返回步驟(5.2),否則進入步驟(6)。
[0031] 優(yōu)選地,步驟(6)包括W下子步驟:
[0032] (6.1)將所有的待預處理數(shù)據(jù)導入到新建數(shù)據(jù)表中,根據(jù)步驟5中確立的映射關 系,將待預處理的數(shù)據(jù)變換成相應映射的數(shù)據(jù),通過規(guī)則庫提取與該數(shù)據(jù)相應的數(shù)據(jù)預處 理方法;
[0033] (6.2)依照規(guī)則庫中的預處理方法,對所有待預處理數(shù)據(jù)進行數(shù)值缺失和數(shù)據(jù)冗 余處理;
[0034] (6.3)對步驟(6.2)處理后的數(shù)據(jù)進行合并、拆分和歸一化處理;
[0035] (6.4)對步驟(6.3)處理后的數(shù)據(jù)進行屬性交換、屬性變換和屬性刪除處理;
[0036] (6.5)計算預處理數(shù)據(jù)各字段的特征向量人=^1,人2...人。)和規(guī)則庫字段特征向量 λ' = (λι',λ2' . . .λη'),并得到向量集合D = { (λι,λι'),(λ2,λ2'). . .(λη,λη')},使用公式
?乍為評估函數(shù)對預處理過程進行評估,并判斷是否有5>4,4為預先設定 的誤差闊值,如果是則進入步驟(7),否則跳轉步驟(8)。
[0037] 優(yōu)選地,輸出預處理日志包括預處理時間、預處理數(shù)據(jù)、匹配字段、預處理操作、預 處理后數(shù)據(jù)、預處理質量評估、未處理字段、新建規(guī)則。
[0038] 總體而言,通過本發(fā)明所構思的W上技術方案與現(xiàn)有技術相比,能夠取得下列有 益效果:
[0039] 1、本發(fā)明能夠實現(xiàn)數(shù)據(jù)預處理工作的自動化,由于采用了步驟(1)、(4)、(5)、(6) 通過構建規(guī)則庫,查詢待預處理數(shù)據(jù)中符合規(guī)則庫中字段的字段,得到兩者之間的映射關 系,按照預處理規(guī)則庫中的預處理方法對新數(shù)據(jù)進行自動化的預處理操作。代替了人工預 處理操作,減少了投入提升了數(shù)據(jù)預處理的效率,減少了數(shù)據(jù)挖掘整個過程的周期
[0040] 2、本發(fā)明由于采用了步驟(2)、(3)、(7)建立了一個依托各具體的業(yè)務系統(tǒng)的規(guī)則 庫,通過分析具體業(yè)務系統(tǒng)海量數(shù)據(jù),構建自動化預處理規(guī)則庫,在預處理數(shù)據(jù)的不斷壯大 中,規(guī)則庫也被不斷地更新。規(guī)則庫越來越壯大對預處理數(shù)據(jù)對象的適應能力越強,自動化 程度越高,預處理能力越強,預處理的質量更高,后續(xù)數(shù)據(jù)挖掘得到的信息精度更高,信息 更豐富。
【附圖說明】
[0041 ]圖1是本發(fā)明自動化數(shù)據(jù)挖掘預處理方法的流程圖。
[0042] 圖2是本發(fā)明方法中步驟(1)的細化流程圖。
[0043] 圖3是本發(fā)明方法中步驟(5)的細化流程圖。
[0044] 圖4是本發(fā)明方法中步驟(6)的細化流程圖。
【具體實施方式】
[0045] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,W下結合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所設及到的技術特征只要 彼此之間未構成沖突就可W相互組合。
[0046] 如圖1所示,本發(fā)明的自動化數(shù)據(jù)挖掘預處理方法包括W下步驟:
[0047] 步驟1:建立數(shù)據(jù)庫和預處理規(guī)則庫,在該數(shù)據(jù)庫中新建數(shù)據(jù)表且標準化命名,將 待預處理數(shù)據(jù)進行抽樣后導入新建數(shù)據(jù)表中,同時對抽樣后的預處理數(shù)據(jù)的每一個字段的 值進行數(shù)理統(tǒng)計,本步驟包括W下子步驟(見圖2):
[0048] 步驟1.1:建立數(shù)據(jù)庫,同時建立預處理規(guī)則庫;
[0049] 步驟1.2:在數(shù)據(jù)庫中新建數(shù)據(jù)表且進行標準化命名,其命名規(guī)則為A+B+C+建表時 間的形式,其中A、B和C分別表示該數(shù)據(jù)表數(shù)據(jù)相關信息、代表的行業(yè)和行業(yè)的業(yè)務類型,比 如,A可W為四月份消費明細表,B表示銀行業(yè),C表示現(xiàn)金業(yè)務等;
[0050] 步驟1.3:將待預處理數(shù)據(jù)進行抽樣并導入數(shù)據(jù)表;
[0051] 步驟1.
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1