專利名稱::一種分布式數(shù)據(jù)流聚類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種數(shù)據(jù)流聚類技術(shù),尤其涉及一種分布式數(shù)據(jù)流聚類方法及系統(tǒng)。
背景技術(shù):
:近年來(lái),隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)在工業(yè)生產(chǎn)、信息處理等領(lǐng)域的廣泛應(yīng)用,數(shù)據(jù)已不僅僅拘泥于文件、數(shù)據(jù)庫(kù)等傳統(tǒng)的靜態(tài)形式。一種連續(xù)、無(wú)界、不定速度的流式數(shù)據(jù)已經(jīng)出現(xiàn)在越來(lái)越多的應(yīng)用領(lǐng)域中。這些應(yīng)用領(lǐng)域通常是多數(shù)據(jù)源的系統(tǒng),例如入侵監(jiān)測(cè)系統(tǒng)、電子商務(wù)、電信、分布式傳感器網(wǎng)絡(luò)、氣象監(jiān)測(cè)、科學(xué)數(shù)據(jù)實(shí)時(shí)分析以及點(diǎn)對(duì)點(diǎn)(P2P)計(jì)算等應(yīng)用場(chǎng)景。在這些應(yīng)用中,大量的高維數(shù)據(jù)以較高的速度流向數(shù)據(jù)收集中心,實(shí)時(shí)高效地聚類這類數(shù)據(jù)是一個(gè)非常有挑戰(zhàn)性的任務(wù)。例如,網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)每秒以千兆字節(jié)(GB)的速度接收網(wǎng)絡(luò)流量和系統(tǒng)日志。通過(guò)有效的數(shù)據(jù)聚類算法,可以實(shí)時(shí)地從海量數(shù)據(jù)中挖掘異常模式。隨著數(shù)據(jù)流速度和規(guī)模的提高,分布式數(shù)據(jù)流聚類算法由于其可擴(kuò)展性和實(shí)時(shí)特性能夠滿足需求。目前主流的分布式數(shù)據(jù)流聚類的基本框架是每個(gè)站點(diǎn)對(duì)各自的數(shù)據(jù)流進(jìn)行聚類分析,及時(shí)得到局部聚類模型。然后傳送各個(gè)站點(diǎn)間的聚類模型,最后通過(guò)分析處理得到全局聚類結(jié)果。高效分布式數(shù)據(jù)流聚類算法,必須解決以下幾個(gè)問(wèn)題I)數(shù)據(jù)流可聚類成的簇的個(gè)數(shù)是在不斷變化的,因此不能給定算法一個(gè)固定的值作為參數(shù)。2)算法使用單遍掃描高維數(shù)據(jù)點(diǎn)形成聚類,無(wú)需遍歷整個(gè)數(shù)據(jù)集。隨著新的數(shù)據(jù)點(diǎn)到來(lái),算法必須能夠維持增量更新。3)聚類高速、大量的數(shù)據(jù)流,需要高效的分布式聚類算法來(lái)降低通訊負(fù)擔(dān)、存儲(chǔ)和計(jì)算時(shí)間。但是,目前的數(shù)據(jù)流聚類算法基本上是點(diǎn)對(duì)點(diǎn)(P2P)環(huán)境下實(shí)現(xiàn)的,不能夠在分布式云環(huán)境下運(yùn)行,也不能較輕易地進(jìn)行擴(kuò)展。而且,現(xiàn)有算法時(shí)間復(fù)雜度較高,不能夠滿足數(shù)據(jù)流環(huán)境下實(shí)時(shí)的要求。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是克服目前大多數(shù)的數(shù)據(jù)流聚類算法不能在分布式云環(huán)境下運(yùn)行并不能輕易地進(jìn)行擴(kuò)展,運(yùn)行時(shí)間效率較差的不足。為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種分布式數(shù)據(jù)流聚類方法,包括對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量;利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選取至少一個(gè)聚類簇作為候選聚類簇;周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。優(yōu)選地,利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選取至少一個(gè)聚類簇作為候選聚類簇,包括利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,獲得位置敏感哈希數(shù)據(jù)結(jié)構(gòu),得到位置敏感哈希映射值;對(duì)所述位置敏感哈希映射值進(jìn)行二次哈希,得到一維索引值,落入相應(yīng)的哈希桶中;使用Top-k算法從包含有至少一個(gè)特征向量的哈希桶中選取包含特征向量最多的前k個(gè)哈希桶作為所述候選聚類簇;所述k大于等于I。優(yōu)選地,利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,包括采用至少一個(gè)位置敏感哈希函數(shù)族對(duì)所述多個(gè)特征向量進(jìn)行所述哈希處理;其中,每個(gè)所述位置敏感哈希函數(shù)族由從穩(wěn)態(tài)分布位置敏感哈希函數(shù)族中以獨(dú)立、一致隨機(jī)的方式選擇出的多個(gè)位置敏感哈希函數(shù)運(yùn)算構(gòu)成。優(yōu)選地,周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理,包括獲得所述候選聚類簇各自的質(zhì)心;周期地計(jì)算所述新到的數(shù)據(jù)流的特征向量到所有質(zhì)心的距離范數(shù);將所述新到的數(shù)據(jù)流的特征向量歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇。優(yōu)選地,獲得所述候選聚類簇各自的質(zhì)心,包括采用X-median算法獲得所述候選聚類簇各自的質(zhì)心。優(yōu)選地,將所述新到的數(shù)據(jù)流歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇,包括根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的候選聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇。優(yōu)選地,根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇,包括所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離小于所述預(yù)設(shè)的距離閾值時(shí),將所述新到的數(shù)據(jù)流的特征向量歸到所述距離最小的質(zhì)心所在的聚類簇中,否則為所述新到的數(shù)據(jù)流的特征向量建立所述新的聚類簇。本發(fā)明還提供了一種分布式數(shù)據(jù)流聚類系統(tǒng),包括在線組件,配置為對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量,利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選擇至少一個(gè)聚類簇作為候選聚類簇;離線組件,配置為周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。優(yōu)選地,所述在線組件包括概要處理模塊,配置為對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量;—次哈希模塊,配置為利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,獲得位置敏感哈希數(shù)據(jù)結(jié)構(gòu),得到位置敏感哈希映射值;二次哈希模塊,配置為對(duì)所述位置敏感哈希映射值進(jìn)行二次哈希,得到一維索引值,落入相應(yīng)的哈希桶中;聚類簇選取模塊,配置為使用Top-k算法從所有哈希桶中選取包含特征向量最多的前k個(gè)哈希桶作為所述候選聚類簇;所述k大于等于I。優(yōu)選地,所述一次哈希模塊配置為采用至少一個(gè)位置敏感哈希函數(shù)族對(duì)所述多個(gè)特征向量進(jìn)行所述哈希處理;其中,每個(gè)所述位置敏感哈希函數(shù)族由從穩(wěn)態(tài)分布位置敏感哈希函數(shù)族中以獨(dú)立、一致隨機(jī)的方式選擇出的多個(gè)位置敏感哈希函數(shù)運(yùn)算構(gòu)成。優(yōu)選地,所述離線組件包括質(zhì)心獲取模塊,配置為獲得所述候選聚類簇各自的質(zhì)心;計(jì)算模塊,配置為周期地計(jì)算所述新到的數(shù)據(jù)流的特征向量到所有質(zhì)心的距離范數(shù);聚類模塊,配置為將所述新到的數(shù)據(jù)流的特征向量歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇。優(yōu)選地,所述質(zhì)心獲取模塊配置為采用X-median算法獲得所述候選聚類簇各自的質(zhì)心。優(yōu)選地,所述聚類模塊配置為根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的候選聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇。優(yōu)選地,所述聚類模塊包括判斷單元,配置為對(duì)所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離與所述預(yù)設(shè)的距離閾值進(jìn)行判斷;歸位單元,配置為所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離小于所述預(yù)設(shè)的距離閾值時(shí),將所述新到的數(shù)據(jù)流的特征向量歸到所述距離最小的質(zhì)心所在的聚類簇中;新建單元,配置為所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離不小于所述預(yù)設(shè)的距離閾值時(shí),為所述新到的數(shù)據(jù)流的特征向量建立所述新的聚類簇。與現(xiàn)有技術(shù)相比,本申請(qǐng)的實(shí)施例從高速數(shù)據(jù)流環(huán)境中高效獲得概要信息,使用這些概要信息進(jìn)行分布式聚類。本申請(qǐng)的實(shí)施例與傳統(tǒng)的數(shù)據(jù)流算法相比有以下有益效果基于Map-Reduce分布式框架能夠很大程度上提高數(shù)據(jù)流聚類的效率,使得該算法有較高性能和良好的可擴(kuò)展性;基于位置敏感哈希(LocalitySensitiveHash,LSH)的聚類算法保證了比現(xiàn)有技術(shù)具有更好的實(shí)時(shí)性能。本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。附圖用來(lái)提供對(duì)本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本申請(qǐng)的實(shí)施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對(duì)本發(fā)明技術(shù)方案的限制。圖I為本申請(qǐng)實(shí)施例的分布式數(shù)據(jù)流聚類方法的流程示意圖。圖2為本申請(qǐng)實(shí)施例中LSH的構(gòu)造示意圖。圖3為本申請(qǐng)實(shí)施例的分布式數(shù)據(jù)流聚類系統(tǒng)的構(gòu)造示意圖。具體實(shí)施例方式以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程能充分理解并據(jù)以實(shí)施。本申請(qǐng)實(shí)施例以及實(shí)施例中的各個(gè)特征在不相沖突前提下的相互結(jié)合,均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,在附圖的流程圖示出的內(nèi)容可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。目前的聚類算法大體上分為兩類,一類是劃分聚類算法,另一類是層次聚類算法。劃分聚類算法又可以進(jìn)一步分為基于距離的和基于密度的方法?;诰嚯x的方法主要是在聚類之前計(jì)算數(shù)據(jù)點(diǎn)之間的距離或數(shù)據(jù)點(diǎn)到簇質(zhì)心的距離,主要有K-means算法、直方圖相似算法(Similarityhistogram-based)以及最大期望(Expectationmaximization,EM)等算法?;诿芏鹊姆椒ㄖ饕谢诰W(wǎng)格的聚類算法(Grid-based)、基于微簇的聚類算法(Micro-cluster-based)、核密度評(píng)估(Kerneldensityestimation)、小波密度評(píng)估算法(Waveletdensityestimation)以及模糊聚類算法(Fuzzyclustering)等。以上這些算法主要是應(yīng)用于靜態(tài)數(shù)據(jù)集的聚類分析。與靜態(tài)數(shù)據(jù)不同,數(shù)據(jù)流被定義為只能以事先規(guī)定好的順序讀取一次的數(shù)據(jù)序列。隨著數(shù)據(jù)流應(yīng)用的產(chǎn)生和發(fā)展,數(shù)據(jù)流被認(rèn)為是大量的、實(shí)時(shí)的、連續(xù)到達(dá)的、潛在無(wú)限的有序(到達(dá)時(shí)間有序或隱含時(shí)間戳)數(shù)據(jù)序列,這些數(shù)據(jù)或其摘要信息只能按照順序存取并被讀取一次或有限次。與靜態(tài)數(shù)據(jù)相比,數(shù)據(jù)流具有以下特點(diǎn)。I)高速無(wú)限性。數(shù)據(jù)流通常是源源不斷地快速產(chǎn)生,理論上其長(zhǎng)度是無(wú)限的,在實(shí)際應(yīng)用中遠(yuǎn)超過(guò)系統(tǒng)所能存儲(chǔ)的范圍,而傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)主要用于持久存儲(chǔ),其存儲(chǔ)量和數(shù)據(jù)更新次數(shù)都相對(duì)有限。2)不確定性。數(shù)據(jù)流產(chǎn)生的速度和間隔時(shí)間等統(tǒng)計(jì)特性事先難以確定,其產(chǎn)生順序不受外界控制,數(shù)據(jù)流的產(chǎn)生速度很有可能超出系統(tǒng)所能接受并處理的限度,而傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模和處理能力等性能指標(biāo)通常是已知的。3)時(shí)變性。數(shù)據(jù)流隨時(shí)間而變化,這將引起數(shù)據(jù)的統(tǒng)計(jì)特征也隨時(shí)間而改變,如數(shù)據(jù)的方差、分位數(shù)、概率分布等,而傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常是靜態(tài)的,一旦存儲(chǔ)則很少隨時(shí)間發(fā)生改變。4)單遍掃描性。由于數(shù)據(jù)規(guī)模大、增長(zhǎng)迅速,對(duì)數(shù)據(jù)流僅限于單遍掃描,即除非特意或顯式存儲(chǔ)外,每個(gè)數(shù)據(jù)只被處理一次。而傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行持久存儲(chǔ),便于多遍掃描,并建立相應(yīng)的索引機(jī)制有利于高效的查詢。5)并發(fā)性,通常應(yīng)用場(chǎng)合都是多數(shù)據(jù)源的系統(tǒng),這對(duì)于算法的并發(fā)特性進(jìn)行要求較高。而傳統(tǒng)數(shù)據(jù)庫(kù)模式通常是將分布式數(shù)據(jù)源收集到主數(shù)據(jù)庫(kù)中處理,或是使用分布式處理算法處理分布式節(jié)點(diǎn)中的靜態(tài)數(shù)據(jù)庫(kù)。6)結(jié)果近似性。大量的數(shù)據(jù)流分析處理中并非一定需要精確的查詢結(jié)果,滿足精度誤差要求的近似結(jié)果即可。而傳統(tǒng)數(shù)據(jù)庫(kù)建立在嚴(yán)格的數(shù)學(xué)基礎(chǔ)之上,其查詢語(yǔ)義明確、查詢結(jié)果一般是精確的。其中,高速無(wú)限性和單遍掃描性是兩個(gè)最為重要的特點(diǎn),是數(shù)據(jù)流區(qū)別于傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)鍵。聚類數(shù)據(jù)流的算法主要分為兩大類,一類是單階段機(jī)制(Single-phaseschemes),另一類是兩階段機(jī)制(Two-phaseschemes)。單階段機(jī)制可以視為一個(gè)時(shí)間窗口范圍內(nèi)對(duì)靜態(tài)數(shù)據(jù)進(jìn)行聚類。該方法首先按照數(shù)據(jù)到來(lái)的次序把數(shù)據(jù)流分塊,構(gòu)造這些塊的聚類簇,最后合并這些聚類簇。換句話說(shuō),單階段機(jī)制遵循著分而治之的策略。單階段機(jī)制可以實(shí)現(xiàn)對(duì)數(shù)據(jù)流進(jìn)行聚類,但并不是真正的實(shí)時(shí)聚類方法。而且,由于該機(jī)制對(duì)于當(dāng)前的數(shù)據(jù)和過(guò)期的數(shù)據(jù)賦予相同的權(quán)重,不能夠獲得數(shù)據(jù)流的演變特征。如果數(shù)據(jù)流隨著時(shí)間逐漸演變,這類算法將數(shù)據(jù)流視為若干段靜態(tài)數(shù)據(jù),不能夠發(fā)現(xiàn)時(shí)序模式。兩階段機(jī)制包含一個(gè)在線組件和一個(gè)離線組件。在線組件處理數(shù)據(jù)流獲得數(shù)據(jù)流的概要信息。離線組件被定期觸發(fā),使用在線組件獲取的概要信息生成聚類簇。由于最耗時(shí)的聚類過(guò)程僅僅周期執(zhí)行,兩階段機(jī)制比單階段機(jī)制具有更優(yōu)的時(shí)間效率。因此,兩階段機(jī)制被廣泛使用在當(dāng)前的數(shù)據(jù)聚類算法中。本申請(qǐng)的實(shí)施例遵循兩階段機(jī)制。如圖I所示,本申請(qǐng)實(shí)施例的分布式數(shù)據(jù)流聚類方法主要包括在線處理和離線處理。S110,隨著數(shù)據(jù)的到來(lái),執(zhí)行概要獲取算法,對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量。S120,利用基于p-Stable分布的位置敏感哈希算法映射特征向量到位置敏感哈希表結(jié)構(gòu),獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,使用Top-k算法從中選擇得到包含特征向量最多的前k個(gè)聚類簇作為候選聚類簇;其中k大于等于I。本申請(qǐng)的實(shí)施例也可以采用其他的方式選擇候選聚類簇。S130,使用在線處理獲得的候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。S140,將新到的數(shù)據(jù)流的特征向量歸到該候選聚類簇其中之一中,或者為新到的數(shù)據(jù)流建立新的聚類簇。其上,上述SllO和S120的處理為在線組件所執(zhí)行的在線處理,上述S130和S140的處理為離線組件周期地并發(fā)執(zhí)行的離線處理。位置敏感哈希(LSH)首先被用來(lái)解決主存儲(chǔ)器中的近鄰相似性檢索問(wèn)題,能夠證明其對(duì)數(shù)據(jù)規(guī)模η具有線性時(shí)間復(fù)雜度。它的關(guān)鍵思想是使用一些哈希函數(shù),確保距離近的點(diǎn)比距離遠(yuǎn)的點(diǎn)沖突的概率大,當(dāng)要檢索的時(shí)候,只需要檢索與檢索點(diǎn)q沖突的點(diǎn),從而減少了距離計(jì)算,加快檢索時(shí)間。以二進(jìn)制海明距離為度量方式的位置敏感哈希函數(shù),已經(jīng)在很多領(lǐng)域中應(yīng)用。但它有一個(gè)明顯的缺點(diǎn),通常距離度量函數(shù),都是歐拉距離,要應(yīng)用此算法,必須將歐拉距離轉(zhuǎn)換為二進(jìn)制海明距離,這將增加算法的檢索時(shí)間和復(fù)雜性。為了提高算法的效率和通用性,使用基于p-Stable分布的位置敏感哈希算法,該8算法可以直接處理二次歐拉距離,并解決了(R,C)-近鄰((R,C)-NN)問(wèn)題,另外,它對(duì)高維稀疏數(shù)據(jù)處理效果很好,特別是當(dāng)高維向量中非零數(shù)據(jù)數(shù)目一定時(shí),算法的檢索時(shí)間不變。這個(gè)性質(zhì)是其它的算法所沒(méi)有的,因此用其處理高維稀疏數(shù)據(jù)時(shí)比線性掃描有更大的優(yōu)勢(shì)。對(duì)于一個(gè)基于距離函數(shù)為D(如歐式距離、曼哈頓距離等)的點(diǎn)集域S,一個(gè)位置敏感哈希函數(shù)族形式化定義如下。定義I:位置敏感哈希(LSH)函數(shù),對(duì)于任意數(shù)據(jù)點(diǎn)P,qeRd(q,p表示任意的數(shù)據(jù)點(diǎn);Rd表示d維的數(shù)據(jù)點(diǎn)空間),函數(shù)族H={h:S—U}(S和U分別代表自變量和因變量)被稱為Cr1,r2,P1,p2)對(duì)距離函數(shù)D(Ip-q)敏感(rl、r2是半徑閾值;pl、p2是概率閾值),滿足條件權(quán)利要求1.一種分布式數(shù)據(jù)流聚類方法,包括對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量;利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選取至少一個(gè)聚類簇作為候選聚類簇;周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。2.根據(jù)權(quán)利要求I所述的方法,其中,利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選取至少一個(gè)聚類簇作為候選聚類簇,包括利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,獲得位置敏感哈希數(shù)據(jù)結(jié)構(gòu),得到位置敏感哈希映射值;對(duì)所述位置敏感哈希映射值進(jìn)行二次哈希,得到一維索引值,落入相應(yīng)的哈希桶中;使用Top-k算法從包含有至少一個(gè)特征向量的哈希桶中選取包含特征向量最多的前k個(gè)哈希桶作為所述候選聚類簇;所述k大于等于I。3.根據(jù)權(quán)利要求2所述的方法,利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,包括采用至少一個(gè)位置敏感哈希函數(shù)族對(duì)所述多個(gè)特征向量進(jìn)行所述哈希處理;其中,每個(gè)所述位置敏感哈希函數(shù)族由從穩(wěn)態(tài)分布位置敏感哈希函數(shù)族中以獨(dú)立、一致隨機(jī)的方式選擇出的多個(gè)位置敏感哈希函數(shù)運(yùn)算構(gòu)成。4.根據(jù)權(quán)利要求I所述的方法,其中,周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理,包括獲得所述候選聚類簇各自的質(zhì)心;周期地計(jì)算所述新到的數(shù)據(jù)流的特征向量到所有質(zhì)心的距離范數(shù);將所述新到的數(shù)據(jù)流的特征向量歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇。5.根據(jù)權(quán)利要求4所述的方法,獲得所述候選聚類簇各自的質(zhì)心,包括采用X-median算法獲得所述候選聚類簇各自的質(zhì)心。6.根據(jù)權(quán)利要求4所述的方法,其中,將所述新到的數(shù)據(jù)流歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇,包括根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的候選聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇。7.根據(jù)權(quán)利要求6所述的方法,根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇,包括所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離小于所述預(yù)設(shè)的距離閾值時(shí),將所述新到的數(shù)據(jù)流的特征向量歸到所述距離最小的質(zhì)心所在的聚類簇中,否則為所述新到的數(shù)據(jù)流的特征向量建立所述新的聚類簇。8.一種分布式數(shù)據(jù)流聚類系統(tǒng),包括在線組件,配置為對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量,利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選擇至少一個(gè)聚類簇作為候選聚類簇;離線組件,配置為周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述在線組件包括概要處理模塊,配置為對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量;一次哈希模塊,配置為利用所述位置敏感哈希算法對(duì)所述多個(gè)特征向量進(jìn)行哈希處理,獲得位置敏感哈希數(shù)據(jù)結(jié)構(gòu),得到位置敏感哈希映射值;二次哈希模塊,配置為對(duì)所述位置敏感哈希映射值進(jìn)行二次哈希,得到一維索引值,落入相應(yīng)的哈希桶中;聚類簇選取模塊,配置為使用Top-k算法從所有哈希桶中選取包含特征向量最多的前k個(gè)哈希桶作為所述候選聚類簇;所述k大于等于I。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述一次哈希模塊配置為采用至少一個(gè)位置敏感哈希函數(shù)族對(duì)所述多個(gè)特征向量進(jìn)行所述哈希處理;其中,每個(gè)所述位置敏感哈希函數(shù)族由從穩(wěn)態(tài)分布位置敏感哈希函數(shù)族中以獨(dú)立、一致隨機(jī)的方式選擇出的多個(gè)位置敏感哈希函數(shù)運(yùn)算構(gòu)成。11.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述離線組件包括質(zhì)心獲取模塊,配置為獲得所述候選聚類簇各自的質(zhì)心;計(jì)算模塊,配置為周期地計(jì)算所述新到的數(shù)據(jù)流的特征向量到所有質(zhì)心的距離范數(shù);聚類模塊,配置為將所述新到的數(shù)據(jù)流的特征向量歸到所述候選聚類簇的其中一個(gè)之中,或者為新到的數(shù)據(jù)流建立新的聚類簇。12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述質(zhì)心獲取模塊配置為采用X-median算法獲得所述候選聚類簇各自的質(zhì)心。13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述聚類模塊配置為根據(jù)預(yù)設(shè)的距離閾值將所述新到的數(shù)據(jù)流的特征向量歸到距離最小的質(zhì)心所在的候選聚類簇中,或者為所述新到的數(shù)據(jù)流的特征向量建立新的聚類簇。14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述聚類模塊包括判斷單元,配置為對(duì)所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離與所述預(yù)設(shè)的距離閾值進(jìn)行判斷;歸位單元,配置為所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離小于所述預(yù)設(shè)的距離閾值時(shí),將所述新到的數(shù)據(jù)流的特征向量歸到所述距離最小的質(zhì)心所在的聚類簇中;新建單元,配置為所述新到的數(shù)據(jù)流的特征向量到所述候選聚類簇各自的質(zhì)心的最小距離不小于所述預(yù)設(shè)的距離閾值時(shí),為所述新到的數(shù)據(jù)流的特征向量建立所述新的聚類簇。全文摘要本發(fā)明公開(kāi)了一種分布式數(shù)據(jù)流聚類方法及系統(tǒng),克服目前大多數(shù)的數(shù)據(jù)流聚類算法不能在分布式云環(huán)境下運(yùn)行并不能輕易地進(jìn)行擴(kuò)展,運(yùn)行時(shí)間效率較差的不足,該方法包括對(duì)數(shù)據(jù)流進(jìn)行概要處理,獲得數(shù)據(jù)流的多個(gè)特征向量;利用位置敏感哈希算法獲得各自包含有至少一個(gè)特征向量的多個(gè)聚類簇,并從中選取至少一個(gè)聚類簇作為候選聚類簇;周期地使用所述候選聚類簇對(duì)新到的數(shù)據(jù)流的特征向量進(jìn)行聚類處理。本申請(qǐng)的實(shí)施例基于位置敏感哈希的聚類算法保證了比現(xiàn)有技術(shù)具有更好的實(shí)時(shí)性能。文檔編號(hào)G06F17/30GK102915347SQ20121036529公開(kāi)日2013年2月6日申請(qǐng)日期2012年9月26日優(yōu)先權(quán)日2012年9月26日發(fā)明者吳世忠,曲武,李世賢,王君鶴,偰賡,陳巍申請(qǐng)人:中國(guó)信息安全測(cè)評(píng)中心,北京啟明星辰信息安全技術(shù)有限公司