本發(fā)明涉及數(shù)據(jù)異常檢測(cè),特別涉及基于貝葉斯優(yōu)化的網(wǎng)絡(luò)流量異常檢測(cè)方法。
背景技術(shù):
1、目前,現(xiàn)有專(zhuān)利申請(qǐng)?zhí)枮椋篶n202310906687.4的中國(guó)專(zhuān)利中公開(kāi)了一種新型的網(wǎng)絡(luò)流量組合預(yù)測(cè)模型,包括采集原始網(wǎng)絡(luò)流量數(shù)據(jù),剔除異常網(wǎng)絡(luò)流量數(shù)據(jù);對(duì)剔除異常網(wǎng)絡(luò)流量數(shù)據(jù)時(shí)產(chǎn)生的網(wǎng)絡(luò)流量缺失數(shù)據(jù)進(jìn)行補(bǔ)齊得到更正網(wǎng)絡(luò)流量數(shù)據(jù);對(duì)更正網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行樣本歸一化處理,將更正網(wǎng)絡(luò)流量數(shù)據(jù)的舊時(shí)間序列轉(zhuǎn)換為新時(shí)間序列;將新時(shí)間序列通過(guò)lmd分解為pf分量和余量;對(duì)bilstm神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的超參數(shù)進(jìn)行優(yōu)化;將pf分量和余量作為訓(xùn)練數(shù)據(jù),采用貝葉斯優(yōu)化方法得到bilstm神經(jīng)網(wǎng)絡(luò)優(yōu)化后的超參數(shù);利用貝葉斯優(yōu)化后的bilstm神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)pf分量和余量進(jìn)行預(yù)測(cè),分別得到各分量和余量的預(yù)測(cè)值;對(duì)所有預(yù)測(cè)值進(jìn)行線性疊加,得到更正網(wǎng)絡(luò)流量數(shù)據(jù)的最終預(yù)測(cè)值;雖然通過(guò)這種方式,使得網(wǎng)絡(luò)流量預(yù)測(cè)更加準(zhǔn)確,但是,在實(shí)際使用的過(guò)程中,無(wú)法對(duì)數(shù)據(jù)傳輸?shù)穆窂竭M(jìn)行優(yōu)化。
2、但在上述技術(shù)方案實(shí)施的過(guò)程中,發(fā)現(xiàn)至少存在如下技術(shù)問(wèn)題:
3、無(wú)法有效的對(duì)網(wǎng)絡(luò)異常流量進(jìn)行管控,且網(wǎng)絡(luò)異常流量檢測(cè)重復(fù)性大:現(xiàn)有的網(wǎng)絡(luò)異常檢測(cè)方法主要針對(duì)的是經(jīng)過(guò)傳輸后的數(shù)據(jù)(最終獲取的數(shù)據(jù)),再對(duì)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)分析,將所獲取數(shù)據(jù)中的異常流量數(shù)據(jù)剔除,之后再將補(bǔ)全,此方法具有嚴(yán)重的滯后性,此外,由于數(shù)據(jù)傳輸?shù)穆窂絾我唬覠o(wú)法有效避開(kāi)存在異常數(shù)據(jù)的路徑,導(dǎo)致異常數(shù)據(jù)重復(fù)出現(xiàn)在所獲取數(shù)據(jù)中,所以異常數(shù)據(jù)識(shí)別分析算法在進(jìn)行運(yùn)算時(shí),需要花費(fèi)大量的時(shí)間與精力在重復(fù)性的工作上,嚴(yán)重影響數(shù)據(jù)的處理效率,例如,當(dāng)某一個(gè)傳輸路徑上出現(xiàn)了異常數(shù)據(jù),經(jīng)過(guò)該傳輸路徑的所有原始數(shù)據(jù)都會(huì)有很大的可能性帶有該種異常數(shù)據(jù),導(dǎo)致異常數(shù)據(jù)識(shí)別分析系統(tǒng)需要重復(fù)的刪除對(duì)應(yīng)的異常數(shù)據(jù),隨意這種方式不但容易影響異常數(shù)據(jù)的根治,同時(shí)無(wú)法保證原始數(shù)據(jù)的準(zhǔn)確性,為此,我們提出基于貝葉斯優(yōu)化的網(wǎng)絡(luò)流量異常檢測(cè)方法。
技術(shù)實(shí)現(xiàn)思路
1、(一)解決的技術(shù)問(wèn)題
2、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于貝葉斯優(yōu)化的網(wǎng)絡(luò)流量異常檢測(cè)方法,通過(guò)獲取原始數(shù)據(jù)傳輸前后的數(shù)據(jù)變化情況,推導(dǎo)數(shù)據(jù)傳輸路徑中存在的風(fēng)險(xiǎn),方便后續(xù)進(jìn)行規(guī)避,從而得到一個(gè)能直觀評(píng)價(jià)該線路所存在風(fēng)險(xiǎn)嚴(yán)重程度的數(shù)據(jù)變化預(yù)估值,此外,通過(guò)將數(shù)據(jù)變化預(yù)估值與數(shù)據(jù)傳輸?shù)耐暾闆r結(jié)合,得到風(fēng)險(xiǎn)程度的劃分標(biāo)準(zhǔn),借由該劃分標(biāo)準(zhǔn)將數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始數(shù)據(jù)分為高異常、低異常、非異常三個(gè)擋位,之后再根據(jù)異常的擋位情況判定數(shù)據(jù)傳輸?shù)目煽啃?,以及異常的檢測(cè)力度,從而提高檢測(cè)的針對(duì)性,為傳輸?shù)膫鬏斝侍峁┙鉀Q的基礎(chǔ),解決現(xiàn)有網(wǎng)絡(luò)異常檢測(cè)方法在使用時(shí),無(wú)法有效的對(duì)網(wǎng)絡(luò)異常流量進(jìn)行管控,且網(wǎng)絡(luò)異常流量檢測(cè)重復(fù)性大的技術(shù)問(wèn)題。
3、(二)技術(shù)方案
4、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):
5、基于貝葉斯優(yōu)化的網(wǎng)絡(luò)流量異常檢測(cè)方法,該檢測(cè)方法包括:
6、設(shè)定網(wǎng)絡(luò)異常流量特征的標(biāo)準(zhǔn)閾值區(qū)間,利用netflow流量分析軟件收集網(wǎng)絡(luò)傳輸過(guò)程中的原始流量數(shù)據(jù),再依據(jù)設(shè)定的標(biāo)準(zhǔn)閾值區(qū)間將原始流量數(shù)據(jù)中的異常流量數(shù)據(jù)修正;以原始流量數(shù)據(jù)在傳輸前后的數(shù)據(jù)變化情況為基礎(chǔ),檢測(cè)原始流量數(shù)據(jù)在不同路徑上傳輸時(shí)的變化程度,其中,網(wǎng)絡(luò)異常流量特征包括數(shù)據(jù)流量、流量傳輸速率、流量類(lèi)型以及傳輸流量的完整率;
7、以原始流量數(shù)據(jù)在傳輸前后變化最大的網(wǎng)絡(luò)異常流量特征對(duì)應(yīng)的種類(lèi)為基準(zhǔn),對(duì)傳輸路線進(jìn)行分類(lèi);依據(jù)所分類(lèi)型從數(shù)據(jù)庫(kù)中調(diào)取經(jīng)過(guò)該傳輸線路的歷史網(wǎng)絡(luò)異常流量,并計(jì)算歷史網(wǎng)絡(luò)異常流量之間的重合評(píng)估值,之后按照重合評(píng)估值與預(yù)設(shè)重合閾值區(qū)間的位置關(guān)系,將歷史網(wǎng)絡(luò)異常流量分為重度重合數(shù)據(jù)、中度重合數(shù)據(jù)以及輕度重合數(shù)據(jù),對(duì)于重度重合數(shù)據(jù)發(fā)出禁用指令,將原始流量數(shù)據(jù)中與重度重合數(shù)據(jù)相同部分剔除,并重新與網(wǎng)絡(luò)異常流量特征的標(biāo)準(zhǔn)閾值區(qū)間進(jìn)行比對(duì);對(duì)于中度重合數(shù)據(jù)則發(fā)出溯源指令,獲取中度重合數(shù)據(jù)出現(xiàn)的節(jié)點(diǎn);對(duì)于輕度重合數(shù)據(jù)則不作響應(yīng);
8、調(diào)取原始流量數(shù)據(jù)的可用傳輸路徑,并依據(jù)對(duì)應(yīng)傳輸路線上的歷史網(wǎng)絡(luò)異常流量之間的重合評(píng)估值,生成對(duì)應(yīng)的可信度評(píng)估值;按照可信度評(píng)估值的大小對(duì)原始流量數(shù)據(jù)的可用傳輸路徑進(jìn)行排序,將低于預(yù)設(shè)可信度閾值的傳輸路徑舍棄,記為可信傳輸路徑集;
9、調(diào)取可信傳輸路徑集,采用貝葉斯優(yōu)化對(duì)網(wǎng)絡(luò)異常流量分類(lèi)過(guò)程中搜索lgbm模型的參數(shù)進(jìn)行組合,輸出優(yōu)選路徑組合。
10、優(yōu)選的,原始流量數(shù)據(jù)中的異常流量數(shù)據(jù)修正的具體過(guò)程如下:
11、根據(jù)原始流量數(shù)據(jù)中各網(wǎng)絡(luò)異常流量特征的種類(lèi)設(shè)定對(duì)應(yīng)標(biāo)準(zhǔn)閾值區(qū)間,當(dāng)網(wǎng)絡(luò)異常流量特征在與其對(duì)應(yīng)的標(biāo)準(zhǔn)閾值區(qū)間內(nèi)時(shí),則將其剔除;當(dāng)網(wǎng)絡(luò)異常流量特征高于對(duì)應(yīng)的標(biāo)準(zhǔn)閾值區(qū)間時(shí),則重新傳輸;反之,當(dāng)網(wǎng)絡(luò)異常流量特征低于對(duì)應(yīng)的標(biāo)準(zhǔn)閾值區(qū)間時(shí),則不剔除;
12、根據(jù)剔除的異常數(shù)據(jù),調(diào)取與其對(duì)應(yīng)的流量數(shù)據(jù)段,將流量數(shù)據(jù)段補(bǔ)入原始流量數(shù)據(jù)中,得到補(bǔ)全的原始流量數(shù)據(jù)。
13、優(yōu)選的,依據(jù)網(wǎng)絡(luò)異常流量與標(biāo)準(zhǔn)網(wǎng)絡(luò)流量的行為模式不符,將網(wǎng)絡(luò)異常流量分為網(wǎng)絡(luò)非正常流量量級(jí)、網(wǎng)絡(luò)流量分布異常、網(wǎng)絡(luò)流量傳輸速率異常、網(wǎng)絡(luò)流量?jī)?nèi)容異常以及網(wǎng)絡(luò)流量源地址異常;
14、網(wǎng)絡(luò)非正常流量量級(jí),網(wǎng)絡(luò)異常流量大于標(biāo)準(zhǔn)網(wǎng)絡(luò)流量;
15、網(wǎng)絡(luò)流量分布異常,與標(biāo)準(zhǔn)網(wǎng)絡(luò)流量在不同時(shí)間、不同網(wǎng)絡(luò)協(xié)議和不同通信端口之間有著不同的分布;
16、網(wǎng)絡(luò)流量傳輸速率異常,網(wǎng)絡(luò)異常流量的傳輸速率通常比標(biāo)準(zhǔn)網(wǎng)絡(luò)流量的速率高;
17、網(wǎng)絡(luò)流量?jī)?nèi)容異常,包含與標(biāo)準(zhǔn)網(wǎng)絡(luò)流量不同的協(xié)議、請(qǐng)求、響應(yīng)或數(shù)據(jù)內(nèi)容;
18、網(wǎng)絡(luò)流量源地址異常,非法或虛假的ip地址以及spoofing攻擊。
19、優(yōu)選的,對(duì)原始流量數(shù)據(jù)傳輸前后的數(shù)據(jù)變化程度進(jìn)行分析的過(guò)程如下:
20、設(shè)定數(shù)據(jù)傳輸后完整率的分界閾值;
21、調(diào)取原始流量數(shù)據(jù)的傳輸路徑,并記錄原始流量數(shù)據(jù)在第k條傳輸路線上,數(shù)據(jù)經(jīng)過(guò)傳輸節(jié)點(diǎn)前的正常數(shù)據(jù)量、數(shù)據(jù)經(jīng)過(guò)傳輸節(jié)點(diǎn)后的正常數(shù)據(jù)量、誤差次數(shù)以及數(shù)據(jù)變化量,分別記為wz、wr、、;
22、通過(guò)分析公式計(jì)算原始流量數(shù)據(jù)在經(jīng)過(guò)傳輸后的完整率,當(dāng)≥分界閾值時(shí),舍棄該次檢測(cè)得到的數(shù)據(jù),并將傳輸路徑關(guān)閉,反之,則不作響應(yīng);
23、將代入分析公式計(jì)算出原始流量數(shù)據(jù)傳輸后的數(shù)據(jù)變化預(yù)估值,式中,表示原始流量數(shù)據(jù)經(jīng)過(guò)第n條傳輸路線傳輸后的誤差次數(shù),表示原始流量數(shù)據(jù)經(jīng)過(guò)第n條傳輸路線傳輸后的數(shù)據(jù)變化量,表示原始流量數(shù)據(jù)經(jīng)過(guò)第n條傳輸路線傳輸前的正常數(shù)據(jù)量,表示原始流量數(shù)據(jù)在經(jīng)過(guò)傳輸節(jié)點(diǎn)后的最大完整率,表示原始流量數(shù)據(jù)在經(jīng)過(guò)傳輸節(jié)點(diǎn)后的最小完整率,分別表示原始流量數(shù)據(jù)平均誤差量、完整率極限差值以及原始流量數(shù)據(jù)傳輸前后變化值的權(quán)值;
24、將原始流量數(shù)據(jù)傳輸前后的數(shù)據(jù)變化預(yù)估值與傳輸誤差變化標(biāo)準(zhǔn)區(qū)間進(jìn)行比對(duì),并根據(jù)比對(duì)與數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始流量數(shù)據(jù)進(jìn)行分類(lèi)。
25、優(yōu)選的,原始流量數(shù)據(jù)傳輸前后的數(shù)據(jù)變化預(yù)估值與傳輸誤差變化標(biāo)準(zhǔn)區(qū)間進(jìn)行比對(duì)的分析過(guò)程如下:
26、將計(jì)算得到的原始流量數(shù)據(jù)傳輸前后的數(shù)據(jù)變化預(yù)估值,代入計(jì)算出傳輸誤差變化上限標(biāo)準(zhǔn)值和傳輸誤差變化下限標(biāo)準(zhǔn)值,式中,和分別表示預(yù)設(shè)的傳輸誤差變化上限標(biāo)準(zhǔn)值和傳輸誤差變化下限標(biāo)準(zhǔn)值的常數(shù)修正系數(shù);
27、根據(jù)傳輸誤差變化上限標(biāo)準(zhǔn)值和傳輸誤差變化下限標(biāo)準(zhǔn)值作為分界線,當(dāng)數(shù)據(jù)變化預(yù)估值≤下限標(biāo)準(zhǔn)值時(shí),則將該數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始流量數(shù)據(jù)記為高異常輸送數(shù)據(jù),更換傳輸線路,并重新進(jìn)行傳輸原始流量數(shù)據(jù);當(dāng)下限標(biāo)準(zhǔn)值<數(shù)據(jù)變化預(yù)估值<上限標(biāo)準(zhǔn)值時(shí),則將該數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始流量數(shù)據(jù)記為低異常輸送數(shù)據(jù),重新進(jìn)行傳輸原始流量數(shù)據(jù);當(dāng)數(shù)據(jù)變化預(yù)估值≥上限標(biāo)準(zhǔn)值,則將該數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始流量數(shù)據(jù)記為非異常輸送數(shù)據(jù),不作響應(yīng)。
28、優(yōu)選的,網(wǎng)絡(luò)異常流量之間重合評(píng)估值的分析過(guò)程如下:
29、按照原始流量數(shù)據(jù)是否相同,將經(jīng)過(guò)同一傳輸線路的歷史網(wǎng)絡(luò)異常流量數(shù)據(jù)分為相同傳輸數(shù)據(jù)集和差異傳輸數(shù)據(jù)集;
30、采集相同傳輸數(shù)據(jù)在傳輸過(guò)程中的流量傳輸速率和傳輸流量的完整率,分別記為gv、qx,傳輸流量的完整率qx≠0,并從相同傳輸數(shù)據(jù)集中隨機(jī)選擇兩個(gè)相同傳輸數(shù)據(jù)進(jìn)行組合,選擇l次;
31、通過(guò)分析公式計(jì)算相同傳輸數(shù)據(jù)之間的重合評(píng)估值,式中,表示第i組相同傳輸數(shù)據(jù)之間的重合率,分別表示相同傳輸數(shù)據(jù)傳輸完整率比例和流量傳輸速率的權(quán)重,,且;
32、采集差異傳輸數(shù)據(jù)在傳輸過(guò)程中的流量傳輸速率和傳輸流量的完整率,分別記為gt、qt,并從差異傳輸數(shù)據(jù)集中隨機(jī)選擇兩個(gè)差異傳輸數(shù)據(jù)進(jìn)行組合,選擇d次;
33、通過(guò)分析公式計(jì)算差異傳輸數(shù)據(jù)之間的重合評(píng)估值,式中,表示第m組差異傳輸數(shù)據(jù)之間的重合率,分別表示差異傳輸數(shù)據(jù)傳輸完整率比例和流量傳輸速率的權(quán)重,,且。
34、優(yōu)選的,將和代入分析公式計(jì)算出歷史網(wǎng)絡(luò)異常流量之間的重合評(píng)估值,式中,分別表示重合比例、相同傳輸數(shù)據(jù)重合評(píng)估值以及差異傳輸數(shù)據(jù)重合評(píng)估值;
35、將重合評(píng)估值與預(yù)設(shè)重合閾值區(qū)間進(jìn)行比對(duì),當(dāng)重合評(píng)估值大于重合閾值區(qū)間的最大值時(shí),則將經(jīng)過(guò)該傳輸線路的歷史網(wǎng)絡(luò)異常流量記為重度重合數(shù)據(jù),執(zhí)行禁用指令;當(dāng)重合評(píng)估值小于重合閾值區(qū)間的最小值時(shí),則將經(jīng)過(guò)該傳輸線路的歷史網(wǎng)絡(luò)異常流量記為輕度重合數(shù)據(jù),則不做響應(yīng);當(dāng)重合評(píng)估值位于重合閾值區(qū)間內(nèi)時(shí),則將經(jīng)過(guò)該傳輸線路的歷史網(wǎng)絡(luò)異常流量記為中度重合數(shù)據(jù),執(zhí)行溯源命令。
36、優(yōu)選的,在接收到溯源指令時(shí),執(zhí)行溯源命令,具體分析過(guò)程如下:
37、獲取中度重合數(shù)據(jù)傳輸過(guò)程中經(jīng)過(guò)的傳輸路徑,記為模擬路徑;
38、向獲取的模擬路徑中輸入傳輸模擬數(shù)據(jù),并記錄各節(jié)點(diǎn)處的數(shù)據(jù);
39、關(guān)閉傳輸模擬數(shù)據(jù)傳輸過(guò)程中第一次出現(xiàn)中度重合數(shù)據(jù)的節(jié)點(diǎn),并將該節(jié)點(diǎn)從模擬路徑中剔除并補(bǔ)入可替換節(jié)點(diǎn),重新向模擬路徑中輸入傳輸模擬數(shù)據(jù),直至中度重合數(shù)據(jù)不再出現(xiàn)時(shí)停止,將剔除的節(jié)點(diǎn)標(biāo)記為中度異常傳輸節(jié)點(diǎn)。
40、優(yōu)選的,生成對(duì)應(yīng)的可信度評(píng)估值所依據(jù)的公式如下:
41、
42、式中,分別為歷史網(wǎng)絡(luò)異常流量重合評(píng)估值和數(shù)據(jù)變化預(yù)估值的比例系數(shù),且。
43、優(yōu)選的,利用貝葉斯優(yōu)化lgbm的具體步驟如下:
44、確定待優(yōu)化的lgbm模型的參數(shù)空間;
45、將lgbm模型與待優(yōu)化參數(shù)結(jié)合,定義一個(gè)目標(biāo)函數(shù)作為優(yōu)化目標(biāo),選定20次交叉驗(yàn)證的精度平均值作為目標(biāo)函數(shù);
46、選擇貝葉斯優(yōu)化(bayesianoptimization)庫(kù),并根據(jù)定義的參數(shù)空間和目標(biāo)函數(shù)進(jìn)行初始化;
47、在每一次迭代中,貝葉斯優(yōu)化器根據(jù)當(dāng)前的參數(shù)空間和目標(biāo)函數(shù)進(jìn)行采樣,得到一組參數(shù)取值,使用這組參數(shù)訓(xùn)練lgbm模型,并評(píng)估模型在訓(xùn)練數(shù)據(jù)上的性能,根據(jù)評(píng)估結(jié)果,更新貝葉斯優(yōu)化器的模型,并選擇下一組參數(shù)進(jìn)行采樣;迭代過(guò)程中貝葉斯優(yōu)化器不斷更新模型,以尋找目標(biāo)函數(shù)的優(yōu)選解;
48、當(dāng)達(dá)到預(yù)定的迭代次數(shù)時(shí),貝葉斯優(yōu)化過(guò)程結(jié)束,從優(yōu)化過(guò)程中記錄的參數(shù)取值和目標(biāo)函數(shù)的取值中找到優(yōu)選的參數(shù)組合。
49、(三)有益效果
50、1、通過(guò)獲取原始數(shù)據(jù)傳輸前后的數(shù)據(jù)變化情況,推導(dǎo)數(shù)據(jù)傳輸路徑中存在的風(fēng)險(xiǎn),方便后續(xù)進(jìn)行規(guī)避,從而得到一個(gè)能直觀評(píng)價(jià)該線路所存在風(fēng)險(xiǎn)嚴(yán)重程度的數(shù)據(jù)變化預(yù)估值,此外,通過(guò)將數(shù)據(jù)變化預(yù)估值與數(shù)據(jù)傳輸?shù)耐暾闆r結(jié)合,得到風(fēng)險(xiǎn)程度的劃分標(biāo)準(zhǔn),借由該劃分標(biāo)準(zhǔn)將數(shù)據(jù)變化預(yù)估值對(duì)應(yīng)的原始數(shù)據(jù)分為高異常、低異常、非異常三個(gè)擋位,之后再根據(jù)異常的擋位情況判定數(shù)據(jù)傳輸?shù)目煽啃裕约爱惓5臋z測(cè)力度,從而提高檢測(cè)的針對(duì)性,為傳輸?shù)膫鬏斝侍峁┙鉀Q的基礎(chǔ)。
51、2、按照原始流量數(shù)據(jù)是否相同,將經(jīng)過(guò)同一傳輸線路的歷史網(wǎng)絡(luò)異常流量數(shù)據(jù)分為相同傳輸數(shù)據(jù)集和差異傳輸數(shù)據(jù)集,之后再分別檢測(cè)傳輸前后的異常數(shù)據(jù)重合評(píng)估值,由此反映各種異常流量數(shù)據(jù)的重合情況,再以此為基礎(chǔ),對(duì)存在異常流量數(shù)據(jù)的線路進(jìn)行禁用或追溯,從而保證數(shù)據(jù)在傳輸過(guò)程中的準(zhǔn)確性,同時(shí)還能減小數(shù)據(jù)傳輸前后的偏差范圍,此外,按照異常數(shù)據(jù)重合評(píng)估值的大小,便可以看出不同輸送線路上,各種異常流量數(shù)據(jù)的出現(xiàn)概率,由此便可以控制檢測(cè)系統(tǒng)對(duì)針對(duì)高發(fā)異常流量數(shù)據(jù)進(jìn)行優(yōu)先檢測(cè),從而進(jìn)一步提高檢測(cè)的效率。