本發(fā)明涉及銷售數(shù)據(jù)異常檢測,具體涉及一種基于大數(shù)據(jù)分析的數(shù)據(jù)治理方法和系統(tǒng)。
背景技術:
1、醫(yī)藥企業(yè)通過藥品銷售大數(shù)據(jù)建立預測模型,預測地區(qū)的藥品需求量。藥品銷售大數(shù)據(jù)的質(zhì)量影響預測模型建立的準確性,數(shù)據(jù)治理通過建立數(shù)據(jù)質(zhì)量監(jiān)控機制,可以提高藥品銷售大數(shù)據(jù)的數(shù)據(jù)質(zhì)量。在對藥品銷售大數(shù)據(jù)進行數(shù)據(jù)治理過程中,由于藥品銷售的記錄和傳輸?shù)臅r候容易出現(xiàn)失誤,因此需要進行數(shù)據(jù)清洗,消除異常的數(shù)據(jù),補充缺失的數(shù)據(jù)部分,形成可靠的數(shù)字資產(chǎn)。
2、由于地區(qū)藥品的銷售數(shù)據(jù)存在因操作失誤或異常傳輸?shù)惹闆r造成銷售數(shù)據(jù)異常,因此需要進行數(shù)據(jù)清洗。在數(shù)據(jù)清洗時,藥品銷售數(shù)據(jù)中的銷售時間、藥品銷售價等數(shù)據(jù)都可以根據(jù)其他數(shù)據(jù)直接推導完成交叉驗證,通過交叉驗證就能識別出異常數(shù)據(jù)完成數(shù)據(jù)清洗。但是售藥點的藥品銷售量與實際銷售情況掛鉤,無法通過直接推導進行交叉驗證以識別出異常數(shù)據(jù)。因此在數(shù)據(jù)治理過程中,由于藥品的藥品銷售量難以交叉驗證,存在難以識別出藥品的藥品銷售量中異常數(shù)據(jù)的問題。
技術實現(xiàn)思路
1、為了解決現(xiàn)有技術難以識別出藥品的藥品銷售量中異常數(shù)據(jù)的技術問題,本發(fā)明的目的在于提供一種基于大數(shù)據(jù)分析的數(shù)據(jù)治理方法和系統(tǒng),所采用的技術方案具體如下:
2、一種基于大數(shù)據(jù)分析的數(shù)據(jù)治理方法,所述方法包括以下步驟:
3、獲取每個售藥點的系統(tǒng)數(shù)據(jù);所述系統(tǒng)數(shù)據(jù)包含售藥點的空間位置以及各個采樣周期下的天氣參數(shù)、藥品銷售量和藥品銷售價;
4、以任意一個售藥點為目標售藥點,獲取所述目標售藥點的參考周圍售藥點;根據(jù)所述目標售藥點和所述參考周圍售藥點的所述空間位置的距離以及所述藥品銷售價的差異,對目標售藥點的所述藥品銷售量進行調(diào)整獲取調(diào)整后的藥品銷售量;
5、以售藥點的任意一個調(diào)整后的藥品銷售量作為待分析異常點;根據(jù)待分析異常點所屬售藥點的所述調(diào)整后的藥品銷售量和所述天氣參數(shù)的局部波動程度在連續(xù)采樣周期下的相關性,以及待分析異常點對應的天氣參數(shù)的局部波動程度,獲取待分析異常點的異常程度;
6、根據(jù)所述異常程度,篩選出異常藥品銷售量。
7、進一步地,所述目標售藥點的參考周圍售藥點的獲取方法包括:
8、在采樣周期下除了所述目標售藥點的其他所有售藥點中,獲取目標售藥點和每個售藥點的空間位置之間歐氏距離,將歐氏距離小于預設距離閾值對應的每個售藥點,標記為目標售藥點的參考周圍售藥點。
9、進一步地,所述調(diào)整后的藥品銷售量的獲取方法包括:
10、根據(jù)在采樣周期下所述目標售藥點和所述參考周圍售藥點在空間位置維度的距離以及在藥品銷售價維度的差異,獲取所述參考周圍售藥點對所述目標售藥點的分流影響度;
11、根據(jù)參考周圍售藥點對所述目標售藥點的分流影響度,對目標售藥點的藥品銷售量進行調(diào)整,獲取目標售藥點在采樣周期下調(diào)整后的藥品銷售量。
12、進一步地,所述分流影響度的獲取方法包括:
13、根據(jù)所述目標售藥點和所述參考周圍售藥點的空間位置之間歐氏距離,獲取所述參考周圍售藥點的位置影響值;
14、根據(jù)所述目標售藥點和所述參考周圍售藥點的藥品銷售價的差異,獲取所述參考周圍售藥點的價格影響值;
15、根據(jù)所述位置影響值和所述價格影響值,獲取所述參考周圍售藥點對所述目標售藥點的分流影響度;所述位置影響值、所述價格影響值均和所述分流影響度呈正相關。
16、進一步地,所述根據(jù)參考周圍售藥點對所述目標售藥點的分流影響度,對目標售藥點的藥品銷售量進行調(diào)整,獲取目標售藥點在采樣周期下調(diào)整后的藥品銷售量的方法包括:
17、綜合在采樣周期下所有參考周圍售藥點對所述目標售藥點的所述分流影響度,獲取目標售藥點的分流調(diào)節(jié)指標;
18、根據(jù)目標售藥點的分流調(diào)節(jié)指標和目標售藥點的藥品銷售量,獲取目標售藥點在采樣周期下調(diào)整后的藥品銷售量;所述藥品銷售量、分流調(diào)節(jié)指標均和調(diào)整后的藥品銷售量呈正相關。
19、進一步地,所述分流調(diào)節(jié)指標獲取的方法包括:
20、計算在采樣周期下所有參考周圍售藥點對所述目標售藥點的分流影響度的累加值,對累加值進行歸一化,得到整體分流影響度;計算整體分流影響度和預設分流銷量值的乘積,得到目標售藥點的分流調(diào)節(jié)指標。
21、進一步地,所述根據(jù)目標售藥點的分流調(diào)節(jié)指標和目標售藥點的藥品銷售量,獲取目標售藥點在采樣周期下調(diào)整后的藥品銷售量的方法包括:
22、計算目標售藥點的分流調(diào)節(jié)指標與藥品銷售量的和值,得到目標售藥點在采樣周期下調(diào)整后的藥品銷售量。
23、進一步地,所述異常程度的獲取方法包括:
24、根據(jù)待分析異常點所屬售藥點的調(diào)整后的藥品銷售量和天氣參數(shù)的局部波動程度在連續(xù)采樣周期下的相關性,以及待分析異常點對應的天氣參數(shù)的局部波動程度,獲取待分析異常點的天氣影響度;
25、根據(jù)待分析異常點所屬售藥點的所有采樣周期下調(diào)整后的藥品銷售量,獲取待分析異常點的異常得分;
26、根據(jù)天氣影響度和異常得分,獲取待分析異常點的異常程度;所述異常得分和所述異常程度呈正相關;所述天氣影響度和所述異常程度呈負相關。
27、進一步地,所述天氣影響度的獲取方法包括:
28、確定天氣參數(shù)的參考時間范圍,計算在天氣參數(shù)的參考時間范圍中所有天氣參數(shù)的方差,獲取天氣參數(shù)的天氣變化度;
29、按照采樣周期的順序,依次統(tǒng)計待分析異常點所屬售藥點的各個調(diào)整后的藥品銷售量,獲取調(diào)整后的藥品銷售量時序數(shù)據(jù);依次統(tǒng)計待分析異常點所屬售藥點的各個天氣變化度,獲取天氣變化度時序數(shù)據(jù);將調(diào)整后的藥品銷售量時序數(shù)據(jù)和天氣變化度時序數(shù)據(jù)的皮爾遜相關系數(shù)進行歸一化,得到藥品季節(jié)特征指標;
30、在待分析異常點所屬售藥點中,將與待分析異常點的采樣周期相同的天氣變化度進行歸一化,作為待分析天氣變化指標;
31、計算藥品季節(jié)特征指標和待分析天氣變化指標的乘積,得到待分析異常點的天氣影響度。
32、本發(fā)明提出一種基于大數(shù)據(jù)分析的數(shù)據(jù)治理系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)任意一項所述一種基于大數(shù)據(jù)分析的數(shù)據(jù)治理方法的步驟。
33、本發(fā)明具有如下有益效果:
34、考慮到藥品銷售量中存在操作流程失誤和傳輸流程失誤造成的數(shù)據(jù)異常,流程異常數(shù)據(jù)和正常藥品銷售量具有較大差異,從而分析出藥品銷售量中流程異常數(shù)據(jù)??紤]到售藥點的周圍售藥點也是藥品銷售的重要渠道,以任意一個售藥點為目標售藥點,獲取目標售藥點的參考周圍售藥點;參考周圍售藥點會對目標售藥點的藥品銷售量產(chǎn)生分流的影響;考慮到顧客往往傾向于距離較近且價格較便宜的售藥點進行購藥,距離目標售藥點越近且藥品價格越低的參考周圍售藥點對目標售藥點分流程度越大,對售藥點的藥品銷售量進行調(diào)整,獲取售藥點的調(diào)整后的藥品銷售量。調(diào)整后的藥品銷售量降低了參考周圍售藥點的分流影響,使得后續(xù)進行數(shù)據(jù)異常分析時,降低因周圍售藥點分流使得藥品銷售量的波動加劇,提高藥品銷售量的異常分析準確性。考慮到部分藥品具有常服特征,即該藥品適用于患者的慢性病,患者對該藥品需求穩(wěn)定,銷量穩(wěn)定性高;部分藥品具有季節(jié)性特征,即該藥品適用于患者季節(jié)性疾病,在天氣波動越大時藥品的藥品銷售量越高,例如感冒藥具有季節(jié)性特征,在天氣變化越大時,人群中患有感冒的人群增多,對感冒藥需求越大,感冒藥的藥品銷售量增大;本發(fā)明考慮到具有季節(jié)特征指標的藥品在天氣劇烈波動時產(chǎn)生時,銷量增大是正常購藥現(xiàn)象,在進行異常分析時,降低藥品季節(jié)特征對異常分析的影響,獲取能更加準確反映流程不當產(chǎn)生失誤的異常程度,使得異常藥品銷售量能更好反映流程異常數(shù)據(jù),從而更好地對銷量數(shù)據(jù)進行數(shù)據(jù)治理。