本發(fā)明涉及數(shù)據(jù)清洗,具體涉及一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng)。
背景技術(shù):
1、通過大數(shù)據(jù)分析平臺對不同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行分析,能夠及時發(fā)現(xiàn)不同醫(yī)藥類型的銷量數(shù)據(jù)的變化趨勢,并針對性的對不同醫(yī)藥產(chǎn)品的生產(chǎn)做出調(diào)整,但在醫(yī)藥銷量數(shù)據(jù)的獲取、傳輸和存儲過程中,部分?jǐn)?shù)據(jù)會不可避免的出現(xiàn)偏差,因此需要對大數(shù)據(jù)分析平臺的醫(yī)藥銷量數(shù)據(jù)進(jìn)行清洗,以保證平臺的分析精度。
2、相關(guān)技術(shù)中,通常利用局部異常異常因子算法(local?outlier?factor,lof)或孤立森林算法(isolation?forest,iforest)等異常檢測算法對醫(yī)藥銷量數(shù)據(jù)進(jìn)行異常檢測,并對異常數(shù)據(jù)進(jìn)行清洗,但由于各類型的醫(yī)藥通常會通過多種渠道進(jìn)行銷售,多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,某個渠道的醫(yī)藥銷量數(shù)據(jù)的變化會影響到其他渠道的醫(yī)藥銷量數(shù)據(jù)發(fā)生改變,導(dǎo)致現(xiàn)有方法無法準(zhǔn)確檢測出異常銷量數(shù)據(jù),進(jìn)而降低對醫(yī)藥銷量數(shù)據(jù)清洗的效果。
技術(shù)實現(xiàn)思路
1、為了解決多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無法準(zhǔn)確檢測出異常的銷量數(shù)據(jù),進(jìn)而降低對醫(yī)藥銷量數(shù)據(jù)清洗的效果的技術(shù)問題,本發(fā)明的目的在于提供一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、本發(fā)明提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法,所述方法包括:
3、獲取待測銷售渠道在預(yù)設(shè)時間段內(nèi)每個時間點的銷量數(shù)據(jù)序列,所述銷量數(shù)據(jù)序列包括不同醫(yī)藥類型的銷量數(shù)據(jù);
4、對所述待測銷售渠道中所有時間點的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個聚類簇的特征時間段;將任意一個聚類簇作為目標(biāo)聚類簇,將待測銷售渠道中屬于目標(biāo)聚類簇的所述特征時間段的銷量數(shù)據(jù)序列,作為目標(biāo)聚類簇的參考序列;根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時序離散特征值;根據(jù)各參考序列和目標(biāo)聚類簇中各銷量數(shù)據(jù)序列之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值;
5、根據(jù)目標(biāo)聚類簇與除目標(biāo)聚類簇之外的其他聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,以及所述時序離散特征值的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子;
6、對目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測,并結(jié)合所述數(shù)據(jù)異常變化因子,對目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗。
7、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值包括:
8、對目標(biāo)聚類簇中所有時間點的銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù);
9、對所有時間點的所述參考序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得待測銷售渠道在目標(biāo)聚類簇的特征時間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù);
10、根據(jù)相同醫(yī)藥類型的所述第一數(shù)據(jù)變化參數(shù)和所述第二數(shù)據(jù)變化參數(shù)的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值。
11、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)包括:
12、構(gòu)建第一狀態(tài)矩陣,所述第一狀態(tài)矩陣的行表示時間點,所述第一狀態(tài)矩陣的列表示醫(yī)藥類型,所述第一狀態(tài)矩陣的行元素為目標(biāo)聚類簇中每個時間點的銷量數(shù)據(jù)序列;
13、將所述第一狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)。
14、進(jìn)一步地,所述獲得待測銷售渠道在目標(biāo)聚類簇的特征時間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)包括:
15、構(gòu)建第二狀態(tài)矩陣,所述第二狀態(tài)矩陣的行表示時間點,所述第二狀態(tài)矩陣的列表示醫(yī)藥類型,所述第二狀態(tài)矩陣的行元素為每個時間點的參考序列;
16、將所述第二狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為待測銷售渠道在目標(biāo)聚類簇的特征時間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)。
17、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子包括:
18、將除目標(biāo)聚類簇之外的其他聚類簇作為參考聚類簇;
19、根據(jù)目標(biāo)聚類簇與每個參考聚類簇之間所述時序離散特征值的差異,獲得目標(biāo)聚類簇與每個參考聚類簇之間的第一特征值差異;
20、根據(jù)目標(biāo)聚類簇與每個參考聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,獲得目標(biāo)聚類簇與每個參考聚類簇之間每種醫(yī)藥類型的第二特征值差異;
21、對所述第一特征值差異和所述第二特征值差異進(jìn)行綜合,獲得目標(biāo)聚類簇與每個參考聚類簇之間每種醫(yī)藥類型的綜合特征值差異;
22、對目標(biāo)聚類簇與所有參考聚類簇之間每種醫(yī)藥類型的所述綜合特征值差異的整體水平分析后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子,其中,目標(biāo)聚類簇中所有醫(yī)藥類型的所述數(shù)據(jù)異常變化因子的和值等于數(shù)值1。
23、進(jìn)一步地,所述對目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測,并結(jié)合所述數(shù)據(jù)異常變化因子,對目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:
24、分別將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列中的相同醫(yī)藥類型的銷量數(shù)據(jù)輸入至異常檢測算法中,獲得目標(biāo)聚類簇中每個銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的異常評估值;
25、利用目標(biāo)聚類簇中每種醫(yī)藥類型的所述數(shù)據(jù)異常變化因子,對目標(biāo)聚類簇中每個銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的所述異常評估值進(jìn)行加權(quán)求和后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每個銷量數(shù)據(jù)序列的清洗判斷值;
26、基于所述清洗判斷值,對目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗。
27、進(jìn)一步地,所述基于所述清洗判斷值,對目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:
28、在目標(biāo)聚類簇中,將所述清洗判斷值大于預(yù)設(shè)清洗閾值的銷量數(shù)據(jù)序列進(jìn)行刪除。
29、進(jìn)一步地,所述對所述待測銷售渠道中所有時間點的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個聚類簇的特征時間段包括:
30、基于待測銷售渠道中各銷量數(shù)據(jù)序列中相同醫(yī)藥類型的醫(yī)藥數(shù)據(jù)的差異,對所有的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇;
31、在每個聚類簇中,將所有銷量數(shù)據(jù)序列對應(yīng)的時間點的最小值和最大值之間的時間段,作為每個聚類簇的特征時間段。
32、進(jìn)一步地,所述根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時序離散特征值包括:
33、將所有參考序列的數(shù)量作分子,將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列的數(shù)量作分母,將比值作為目標(biāo)聚類簇的時序離散特征值。
34、本發(fā)明還提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除系統(tǒng),所述系統(tǒng)包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)任意一項用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法的步驟。
35、本發(fā)明具有如下有益效果:
36、本發(fā)明考慮到多種銷售渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無法準(zhǔn)確檢測出異常的銷量數(shù)據(jù),進(jìn)而降低對醫(yī)藥銷量數(shù)據(jù)清洗的效果,因此本發(fā)明首先獲取待測銷售渠道在預(yù)設(shè)時間段內(nèi)每個時間點的銷量數(shù)據(jù)序列,考慮到異常因素和不同銷售渠道間相互影響的因素,都會導(dǎo)致使得銷量數(shù)據(jù)出現(xiàn)變化,因此本發(fā)明首先對醫(yī)藥銷量數(shù)據(jù)序列進(jìn)行聚類,得到多個聚類簇以及每個聚類簇的特征時間段,并將待測銷售渠道中屬于目標(biāo)聚類簇的特征時間段的銷量數(shù)據(jù)序列作為參考序列,當(dāng)目標(biāo)聚類簇中存在受這兩種因素影響的銷量數(shù)據(jù)序列時,使得參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間的數(shù)量差異較大,并且二者之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化情況也存在較大的差異,因此可通過時序離散特征值和數(shù)據(jù)變化特征值反映目標(biāo)聚類簇中存在受影響的銷量數(shù)據(jù)序列的可能性,考慮到當(dāng)目標(biāo)聚類簇中存在異常數(shù)據(jù)時,會增大目標(biāo)聚類簇與其他聚類簇之間的時序離散特征值差異以及相同醫(yī)藥類型的數(shù)據(jù)變化特征值的差異,因此可通過數(shù)據(jù)異常變化因子反映目標(biāo)聚類簇中每種醫(yī)藥類型的銷量數(shù)據(jù)存在異常的可能性,進(jìn)而結(jié)合數(shù)據(jù)異常變化因子,對目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗,提高異常銷量數(shù)據(jù)檢測的準(zhǔn)確性以及對銷量數(shù)據(jù)清洗的效果。