聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法

文檔序號：6575465閱讀：170來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，尤其涉及海量樣本數(shù)據(jù)的聚類實(shí)現(xiàn)方法及相應(yīng)系統(tǒng)。
背景技術(shù)：
在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域，已有的聚類算法可以分為幾類，包括基于劃分的方法，基于層次的方法，基于密度的方法，基于網(wǎng)格的方法以及基于模型的方法等。進(jìn)行數(shù)據(jù)挖掘時(shí)，需要將對全部數(shù)據(jù)進(jìn)行逐條計(jì)算及分析，算法時(shí)間復(fù)雜度高。海量數(shù)據(jù)是對各種聚類算法的一個(gè)挑戰(zhàn)。已有的聚類算法大都還只是停留在實(shí)驗(yàn)室階段，對于海量數(shù)據(jù)，有些算法或者不能進(jìn)行有效處理，或者處理效率很低。Kmeans算法是一種基于距離的聚類實(shí)現(xiàn)方法，通過計(jì)算樣本點(diǎn)之間的距離，以判斷樣本之間的類群關(guān)系。Kmeans算法的基本原理為根據(jù)設(shè)置的聚類，為每一個(gè)聚類指定一個(gè)初始的聚類中心點(diǎn)(即初始隨機(jī)指定樣本空間中的樣本點(diǎn)為一個(gè)聚類的聚類中心點(diǎn))；分別計(jì)算數(shù)據(jù)庫中的每一個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與每一個(gè)聚類中心點(diǎn)的距離，將每一個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類中。對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，用和值除以樣本數(shù)量求取均值，得到本輪計(jì)算中每一個(gè)聚類的對應(yīng)虛擬聚類中心點(diǎn)；再計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)與對應(yīng)的聚類中心點(diǎn)之間的距離，具體的距離計(jì)算方法可以采用現(xiàn)有技術(shù)數(shù)據(jù)挖掘中可以采用的歐氏距離計(jì)算法、巴氏距離計(jì)算法以及馬氏距離計(jì)算法等，當(dāng)兩者之間的距離大于設(shè)定的距離閾值時(shí)，用每一個(gè)聚類的虛擬聚類中心點(diǎn)更新其對應(yīng)的聚類中心點(diǎn)，開始下一輪計(jì)算，直到每一個(gè)聚類的聚類中心點(diǎn)都不再需要更新后，結(jié)束流程，將最后一次更新后的聚類中心點(diǎn)作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)。最后輸出每一個(gè)聚類的實(shí)際聚類中心點(diǎn)，以及每個(gè)樣本所歸屬的聚類。上述聚類實(shí)現(xiàn)方法，對于少量樣本，可以方便地在單機(jī)上實(shí)現(xiàn)。但對于海量樣本而言，一方面由于單機(jī)內(nèi)存容量有限，不可能讀入海量的樣本數(shù)據(jù)；另一方面，由于聚類過程中需要進(jìn)行聚類中心點(diǎn)的多輪更新計(jì)算過程，處理時(shí)間很長，在實(shí)際的數(shù)據(jù)業(yè)務(wù)應(yīng)用中，效率很低。因此，對于實(shí)際應(yīng)用中海量數(shù)據(jù)的處理，如何有效地提升處理效率是數(shù)據(jù)挖掘中需要加以解決的一個(gè)主要問題。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供聚類實(shí)現(xiàn)方法及聚類實(shí)現(xiàn)系統(tǒng)，通過采用多個(gè)節(jié)點(diǎn)并行處理，解決現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。本發(fā)明實(shí)施例提供的一種聚類實(shí)現(xiàn)方法包括步驟1、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn)；步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給所述主控節(jié)點(diǎn)；步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟2和步驟3 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。本發(fā)明實(shí)施例提供的另一種聚類實(shí)現(xiàn)方法，包括步驟1、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值，并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)；步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給所述主控節(jié)點(diǎn)；步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟2和步驟3 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。本發(fā)明實(shí)施例提供的一種聚類實(shí)現(xiàn)系統(tǒng)，包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn)；所述主控節(jié)點(diǎn)，用于對樣本分塊，并將分塊樣本分配給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及
接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息；并根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息；所述計(jì)算節(jié)點(diǎn)，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn)；所述合并節(jié)點(diǎn)，用于對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給所述主控節(jié)點(diǎn)。本發(fā)明實(shí)施例提供的另一種聚類實(shí)現(xiàn)系統(tǒng)，包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn)；所述主控節(jié)點(diǎn)，用于對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值；并根據(jù) 接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn) 信息，根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā) 送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息；所述計(jì)算節(jié)點(diǎn)，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè) 樣本屬性的屬性值的和值，并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)；所述合并節(jié)點(diǎn)，用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給所述主控節(jié)點(diǎn)。本發(fā)明提供的聚類實(shí)現(xiàn)方法及系統(tǒng)中，將待處理的樣本分塊后分配給不同的計(jì)算節(jié)點(diǎn)處理，解決了海量數(shù)據(jù)無法全部由單機(jī)讀入內(nèi)存進(jìn)行計(jì)算處理的問題；本發(fā)明提供的聚類實(shí)現(xiàn)方法中，采用了至少兩個(gè)計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算過程，加快了計(jì)算速度；再通過合并節(jié)點(diǎn)進(jìn)行有效合并，充分利用系統(tǒng)中各節(jié)點(diǎn)的計(jì)算資源，有效解決了現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。

圖1為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的步驟流程圖；圖2為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的實(shí)際應(yīng)用流程圖；圖3為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的步驟流程圖；圖4為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的實(shí)際應(yīng)用流程圖；圖5為本發(fā)明實(shí)施例提供的與聚類實(shí)現(xiàn)方法一相對應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)示意圖；圖6為本發(fā)明實(shí)施例提供的與聚類實(shí)現(xiàn)方法二相對應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面結(jié)合附圖，對本發(fā)明提供的聚類實(shí)現(xiàn)方法流程及聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)進(jìn)行詳細(xì) 說明。參見圖1，為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的步驟流程圖，包括下列步驟步驟S101、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)；步驟S102、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送樣本數(shù)量和和值給合并節(jié)點(diǎn)；步驟S103、合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給主控節(jié)點(diǎn)；步驟S104、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟S102和步驟S103 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。參見圖2，為本發(fā)明實(shí)施例提供的上述聚類實(shí)現(xiàn)方法一的實(shí)際應(yīng)用流程圖，包括步驟S201、主控節(jié)點(diǎn)對樣本分塊并將分塊樣本分配給各計(jì)算節(jié)點(diǎn)；以及根據(jù)聚類數(shù)量(假設(shè)為K個(gè)聚類)在樣本空間中任選K個(gè)聚類中心點(diǎn)，作為每個(gè)聚類的初始的聚類中心點(diǎn)。實(shí)際中，主控節(jié)點(diǎn)根據(jù)參與計(jì)算的計(jì)算節(jié)點(diǎn)數(shù)量(假設(shè)為N個(gè))，將待處理的全部樣本分成相應(yīng)數(shù)量的分塊(N個(gè)分塊)，并將每一個(gè)分塊樣本分配給不同的計(jì)算節(jié)點(diǎn)。步驟S202、主控節(jié)點(diǎn)將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)。其中，每一個(gè)聚類的聚類中心點(diǎn)信息可以寫入配置文件，分別傳送給各計(jì)算節(jié)點(diǎn)。步驟S203、每個(gè)計(jì)算節(jié)點(diǎn)并行地分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，并進(jìn)行距離比較，將本地每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類。步驟S204、每個(gè)計(jì)算節(jié)點(diǎn)并行地對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù) 量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)。實(shí)際應(yīng)用中，為了加快合并速度，可以采用多個(gè)合并節(jié)點(diǎn)并行合并的方式。并由主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類。一個(gè)合并節(jié)點(diǎn)至少合并一個(gè)聚類，當(dāng) 然，一個(gè)合并節(jié)點(diǎn)也可以合并兩個(gè)或多個(gè)聚類。5/10 頁一般情況下，進(jìn)行數(shù)據(jù)挖掘的樣本包含有多個(gè)樣本屬性，計(jì)算各樣本的樣本值的和值時(shí)，是對每一個(gè)樣本屬性，分別計(jì)算樣本屬性的屬性值的和值。例如，假設(shè)有三個(gè)樣本，分別為樣本1、樣本2和樣本3屬于同一個(gè)聚類，每一個(gè)樣本包含有三個(gè)樣本屬性，分別為屬性a、屬性b和屬性c，該三個(gè)樣本對應(yīng)的屬性值如下樣本1 ^VCi ；樣本2 :a2、b2、c2 ；樣本3 :a3、b3、c3 ；則計(jì)算出的樣本值的和值為ai+aja^ b.+b^, Cl+C2+C3。傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)的具體方法可以有如下兩種方法一由主控節(jié)點(diǎn)將各合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類，預(yù)先通知給各計(jì)算節(jié)點(diǎn)，各計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類，將本地統(tǒng)計(jì)出的屬于對應(yīng)聚類的樣本數(shù)量以及計(jì)算出的屬于該對應(yīng)聚類的各樣本的樣本值的和值，上報(bào)給對應(yīng)的合并節(jié)點(diǎn)；方法二由每個(gè)合并節(jié)點(diǎn)向每個(gè)計(jì)算節(jié)點(diǎn)收集信息。即每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類，分別向每個(gè)計(jì)算節(jié)點(diǎn)請求上傳對應(yīng)聚類的統(tǒng)計(jì)信息；每個(gè)計(jì)算節(jié)點(diǎn) 向每個(gè)合并節(jié)點(diǎn)返回其請求的對應(yīng)聚類在本地統(tǒng)計(jì)出的樣本數(shù)量以及計(jì)算出的屬于對應(yīng) 聚類的各樣本的樣本值的和值。步驟S205、合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給主控節(jié)點(diǎn)。其中，均值的計(jì)算，就是對每一個(gè)聚類，將每個(gè)計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的和值進(jìn)行累加，得到總和值，再累加每個(gè)計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的樣本數(shù)量，得到樣本總數(shù) 量，用總和值除了樣本總數(shù)量，得到該聚類的本輪計(jì)算的均值，即為該聚類的本輪計(jì)算的虛擬聚類中心點(diǎn)信息。步驟S206、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息，計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)和其當(dāng)前的聚類中心點(diǎn) 之間的距離，并與設(shè)定的距離閾值比較。步驟S207、主控節(jié)點(diǎn)對每一個(gè)聚類分別判斷計(jì)算出的距離是否大于設(shè)定的距離閾值；只要存在一個(gè)聚類，其計(jì)算出的對應(yīng)距離大于設(shè)定的距離閾值，執(zhí)行步驟S208，僅當(dāng)全部聚類計(jì)算出的對應(yīng)距離都小于設(shè)定的距離閾值時(shí)，執(zhí)行步驟S209。步驟S208、主控節(jié)點(diǎn)將計(jì)算出的距離值大于設(shè)定閾值的對應(yīng)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)，轉(zhuǎn)至步驟S203 ；步驟S209、主控節(jié)點(diǎn)將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。一實(shí)施方式中，主控節(jié)點(diǎn)獲取到每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息后，還可以利用各計(jì)算節(jié)點(diǎn)并行計(jì)算出每一個(gè)樣本所屬聚類，具體為所述主控節(jié)點(diǎn)將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)；每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)；
主控節(jié)點(diǎn)根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè) 樣本所屬聚類。上述聚類實(shí)現(xiàn)方法一中，采用了兩個(gè)以上的計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算，提高了計(jì)算效率。且每個(gè)計(jì)算節(jié)點(diǎn)僅處理一部分樣本數(shù)據(jù)，解決了海量數(shù)據(jù)由單機(jī)無法實(shí)現(xiàn)處理的問題。且可以按照聚類數(shù)量設(shè)置相應(yīng)數(shù)量的合并節(jié)點(diǎn)，使合并過程也并行化，進(jìn)一步提高合并處理速度。參見圖3，為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的步驟流程圖，包括下列步驟步驟S301、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)；步驟S302、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值，并傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的和值給合并節(jié)點(diǎn)；步驟S303、合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給主控節(jié)點(diǎn)。步驟S304、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟S302和步驟S303 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。參見圖4，為本發(fā)明實(shí)施例提供的上述聚類實(shí)現(xiàn)方法二的實(shí)際應(yīng)用流程圖，包括步驟S401、主控節(jié)點(diǎn)對樣本分塊并將分塊樣本分配給各計(jì)算節(jié)點(diǎn)；以及根據(jù)聚類數(shù)量(假設(shè)為K個(gè)聚類)在樣本空間中任選K個(gè)聚類中心點(diǎn)，作為每個(gè)聚類的初始的聚類中心點(diǎn)。實(shí)際中，主控節(jié)點(diǎn)根據(jù)參與計(jì)算的計(jì)算節(jié)點(diǎn)數(shù)量(假設(shè)為N個(gè))，將待處理的全部樣本分成相應(yīng)數(shù)量的分塊(N個(gè)分塊)，并將每一個(gè)分塊樣本分配給不同的計(jì)算節(jié)點(diǎn)。步驟S402、主控節(jié)點(diǎn)將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)。步驟S403、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類。步驟S404、每個(gè)計(jì)算節(jié)點(diǎn)并行地分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì) 算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值，并傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的和值給合并節(jié)點(diǎn)。同上例，實(shí)際應(yīng)用中，為了加快合并速度，可以采用多個(gè)合并節(jié)點(diǎn)并行合并的方式。并由主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性。一個(gè)合并節(jié)點(diǎn)至少合并一個(gè)聚類的一個(gè)樣本屬性，當(dāng)然，一個(gè)合并節(jié)點(diǎn)也可以合并兩個(gè)或多個(gè)樣本屬性。傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)的具體方法可以有如下兩種方法一由主控節(jié)點(diǎn)將各合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)樣本屬性，預(yù)先通知給各計(jì)算節(jié)點(diǎn)，所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性，將本地統(tǒng)計(jì) 出的對應(yīng)聚類的樣本數(shù)量以及計(jì)算出的對應(yīng)聚類的對應(yīng)樣本屬性的屬性值的和值，上報(bào)給對應(yīng)的合并節(jié)點(diǎn)；方法二由每個(gè)合并節(jié)點(diǎn)向每個(gè)計(jì)算節(jié)點(diǎn)收集信息。每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性，分別向每個(gè)計(jì)算節(jié)點(diǎn)請求上傳對應(yīng)聚類的對應(yīng)樣本屬性的統(tǒng)計(jì)信息；每個(gè)計(jì)算節(jié)點(diǎn)向每個(gè)合并節(jié)點(diǎn)返回本地統(tǒng)計(jì)出的對應(yīng)聚類的樣本數(shù)量、以及計(jì)算出的對應(yīng)聚類的對應(yīng)樣本屬性的屬性值的和值，并攜帶與和值對應(yīng)的聚類標(biāo)識和樣本屬性標(biāo)識。步驟S405、合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給主控節(jié)點(diǎn)。其中，均值的計(jì)算，就是對每一個(gè)聚類的每一個(gè)樣本屬性，將計(jì)算節(jié)點(diǎn)傳送的對應(yīng) 該聚類的該樣本屬性的和值進(jìn)行累加，得到總和值，再累加計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的樣本數(shù)量，得到樣本總數(shù)量，用總和值除了樣本總數(shù)量，得到該聚類該樣本屬性的屬性值的均值。步驟S406、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)和其當(dāng)前的聚類中心點(diǎn)之間的距離，并與設(shè)定的距離閾值比較。步驟S407、主控節(jié)點(diǎn)對每一個(gè)聚類分別判斷計(jì)算出的距離是否大于設(shè)定的距離閾值；只要存在一個(gè)聚類，其計(jì)算出的對應(yīng)距離大于設(shè)定的距離閾值，執(zhí)行步驟S408，僅當(dāng)全部聚類計(jì)算出的對應(yīng)距離都小于設(shè)定的距離閾值時(shí)，執(zhí)行步驟S409。步驟S408、主控節(jié)點(diǎn)將計(jì)算出的距離值大于設(shè)定閾值的對應(yīng)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)，轉(zhuǎn)至步驟S403 ；步驟S409、主控節(jié)點(diǎn)將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。一實(shí)施方式中，主控節(jié)點(diǎn)獲取到每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息后，還可以利用各計(jì)算節(jié)點(diǎn)并行計(jì)算出每一個(gè)樣本所屬聚類，具體為所述主控節(jié)點(diǎn)將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)；每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)；主控節(jié)點(diǎn)根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè) 樣本所屬聚類。
上述聚類實(shí)現(xiàn)方法二中，采用了兩個(gè)以上的計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算，提高了計(jì)算效率。且每個(gè)計(jì)算節(jié)點(diǎn)僅處理一部分樣本數(shù)據(jù)，解決了海量數(shù)據(jù)由單機(jī)無法實(shí)現(xiàn)處理的問題。且可以按照樣本屬性數(shù)量設(shè)置相應(yīng)數(shù)量的合并節(jié)點(diǎn)，使合并過程也并行化，進(jìn) 一步提高合并處理速度。相對于上述聚類實(shí)現(xiàn)方法一，由于樣本的樣本屬性一般為50-100 個(gè)，最多設(shè)置的合并節(jié)點(diǎn)數(shù)量可以是聚類數(shù)量乘以樣本屬性數(shù)量的乘積，因此，可以有大量的合并節(jié)點(diǎn)參與合并處理，大大提高并行處理效率。上述聚類實(shí)現(xiàn)方法中，可以采用Map/Reduce函數(shù)來實(shí)現(xiàn)。在各計(jì)算節(jié)點(diǎn)中采用 Map函數(shù)并行地參與聚類計(jì)算，輸出本地屬于各聚類的樣本數(shù)量以及各聚類包含的各樣本的樣本值的和值，并傳送給合并節(jié)點(diǎn)。合并節(jié)點(diǎn)采用Reduce函數(shù)，針對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息。 Map/Reduce函數(shù)中的Key和Value對，根據(jù)實(shí)際需要處理的對象及處理結(jié)果分別確定。上述方法一中Map函數(shù)的處理過程每個(gè)Map函數(shù)處理一條樣本數(shù)據(jù)，計(jì)算該樣本數(shù)據(jù)與各聚類初始中心點(diǎn)(或各聚類的上一次中心點(diǎn))的距離，得到距離最近的一個(gè)中心點(diǎn)。Map函數(shù)的輸出key為距離最近的中心點(diǎn)的標(biāo)識，value為對應(yīng)的樣本數(shù)據(jù)。每一個(gè)計(jì)算節(jié)點(diǎn)可以采用Combiner函數(shù)進(jìn)行本地合并，收集所有key相同的樣本數(shù)據(jù)，輸出key為該中心點(diǎn)的標(biāo)識，value為樣本數(shù)據(jù)的各屬性分別向量求和的和值以及樣本個(gè)數(shù)。合并節(jié)點(diǎn)運(yùn)行reduce函數(shù)，Reduce函數(shù)的輸入為combiner函數(shù)的輸出。Reduce 函數(shù)處理過程為，將相同key的value收集，求得向量求和和個(gè)數(shù)求和，再得到均值即向量求和/個(gè)數(shù)求和，得到新的中心點(diǎn)。Reduce函數(shù)的輸出為輸出key為新的中心點(diǎn)標(biāo)識， value為新中心點(diǎn)數(shù)據(jù)，將結(jié)果寫入配置文件，作為下一次重復(fù)執(zhí)行的初始中心點(diǎn)。上述方法二中計(jì)算節(jié)點(diǎn)運(yùn)行Map函數(shù)及Combiner函數(shù)過程同上，不同之處在于Combiner函數(shù) 的輸出是將key設(shè)為中心點(diǎn)標(biāo)識_屬性名稱，value為該屬性值的求和及個(gè)數(shù)和。合并節(jié) 點(diǎn)運(yùn)行reduce函數(shù)，Reduce函數(shù)的輸入為combiner函數(shù)的輸出。Reduce處理過程，求得中心點(diǎn)標(biāo)示_屬性名稱的均值，輸出至配置文件?；谕话l(fā)明構(gòu)思，根據(jù)本發(fā)明上述實(shí)施例提供的聚類實(shí)現(xiàn)方法一，本發(fā)明提供一種相應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)，其結(jié)構(gòu)示意圖如圖5所示，包括主控節(jié)點(diǎn)51、至少兩個(gè)計(jì)算節(jié) 點(diǎn)52及合并節(jié)點(diǎn)53 ；主控節(jié)點(diǎn)51，用于對樣本分塊，并將分塊樣本分配給計(jì)算節(jié)點(diǎn)52，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)52 ；以及接收合并節(jié)點(diǎn)53傳送的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息；并根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)52，當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí) 際聚類中心點(diǎn)信息；計(jì)算節(jié)點(diǎn)52，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)53 ；合并節(jié)點(diǎn)53，用于對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給主控節(jié)點(diǎn)51。一具體實(shí)施例中，主控節(jié)點(diǎn)51還用于，將獲得的每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)52 ；以及根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)52返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類；每個(gè)計(jì)算節(jié)點(diǎn)52還用于，分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)51。一實(shí)施例中，合并節(jié)點(diǎn)53至少包括兩個(gè)，合并節(jié)點(diǎn)53的最大數(shù)量與聚類的數(shù)量相寸。主控節(jié)點(diǎn)51還用于，預(yù)先給每個(gè)合并節(jié)點(diǎn)53分配至少一個(gè)進(jìn)行合并的聚類。圖5中，示意出各計(jì)算節(jié)點(diǎn)52和各合并節(jié)點(diǎn)53分別為不同的節(jié)點(diǎn)。實(shí)際應(yīng)用中，計(jì)算節(jié)點(diǎn)52和合并節(jié)點(diǎn)53除全部為不同的節(jié)點(diǎn)外，還可以是每一個(gè)計(jì)算節(jié)點(diǎn)52或部分計(jì)算節(jié)點(diǎn)52為合并節(jié)點(diǎn)53 ；或者部分計(jì)算節(jié)點(diǎn)52為部分合并節(jié)點(diǎn)53?；谕话l(fā)明構(gòu)思，根據(jù)本發(fā)明上述實(shí)施例提供的聚類實(shí)現(xiàn)方法二，本發(fā)明提供一種相應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)，其結(jié)構(gòu)示意圖如圖6所示，包括主控節(jié)點(diǎn)61、至少兩個(gè)計(jì)算節(jié) 點(diǎn)62及合并節(jié)點(diǎn)63 ；主控節(jié)點(diǎn)61，用于對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)62 ；以及接收合并節(jié)點(diǎn)63 傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值；并根據(jù)接收的每一個(gè)聚類的每一個(gè) 樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)62 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn) fn息；計(jì)算節(jié)點(diǎn)62，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值，并傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的和值給合并節(jié) 點(diǎn)63 ；合并節(jié)點(diǎn)63，用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給主控節(jié)點(diǎn)61。一實(shí)施例中，主控節(jié)點(diǎn)61還用于，將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)62 ；以及根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)62返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類；計(jì)算節(jié)點(diǎn)62，還用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn) 所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)61?！獙?shí)施例中，合并節(jié)點(diǎn)63至少包括兩個(gè)，合并節(jié)點(diǎn)的最大數(shù)量與聚類的數(shù)量和樣本的樣本屬性的數(shù)量的乘積相等。主控節(jié)點(diǎn)61還用于，預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè) 樣本屬性。圖6中，示意出各計(jì)算節(jié)點(diǎn)62和各合并節(jié)點(diǎn)63分別為不同的節(jié)點(diǎn)。實(shí)際應(yīng)用中，計(jì)算節(jié)點(diǎn)62和合并節(jié)點(diǎn)63除全部為不同的節(jié)點(diǎn)外，還可以是每一個(gè)計(jì)算節(jié)點(diǎn)62或部分計(jì)算節(jié)點(diǎn)62為合并節(jié)點(diǎn)；或者部分計(jì)算節(jié)點(diǎn)62為部分合并節(jié)點(diǎn)63。本發(fā)明提供的聚類實(shí)現(xiàn)方法及系統(tǒng)中，將待處理的樣本分塊后分配給不同的計(jì)算節(jié)點(diǎn)處理，解決了海量數(shù)據(jù)無法全部由單機(jī)讀入內(nèi)存進(jìn)行計(jì)算處理的問題；本發(fā)明提供的聚類實(shí)現(xiàn)方法中，采用了至少兩個(gè)計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算過程，加快了計(jì)算速度；再通過合并節(jié)點(diǎn)進(jìn)行有效合并，充分利用系統(tǒng)中各節(jié)點(diǎn)的計(jì)算資源，有效解決了現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。顯然，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
一種聚類實(shí)現(xiàn)方法，其特征在于，包括步驟1、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn)；步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給所述主控節(jié)點(diǎn)；步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟2和步驟3；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。
2.如權(quán)利要求1所述的聚類實(shí)現(xiàn)方法，其特征在于，還包括所述主控節(jié)點(diǎn)將每一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)；所述主控節(jié)點(diǎn)根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類。
3.如權(quán)利要求1或2所述的聚類實(shí)現(xiàn)方法，其特征在于，所述合并節(jié)點(diǎn)至少包括兩個(gè)；由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類；步驟2中所述傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn)，具體包括所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類，將本地統(tǒng)計(jì)出的屬于所述對應(yīng) 聚類的樣本數(shù)量以及計(jì)算出的屬于所述對應(yīng)聚類的各樣本的樣本值的和值，上報(bào)給對應(yīng)的合并節(jié)點(diǎn)；或者每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類，分別向每個(gè)所述計(jì)算節(jié)點(diǎn)請求上傳所述對應(yīng)聚類的統(tǒng)計(jì)信息；每個(gè)所述計(jì)算節(jié)點(diǎn)向每個(gè)合并節(jié)點(diǎn)返回其請求的所述對應(yīng)聚類在本地統(tǒng)計(jì)出的樣本數(shù)量以及計(jì)算出的屬于所述對應(yīng)聚類的各樣本的樣本值的和值。
4.如權(quán)利要求3所述的聚類實(shí)現(xiàn)方法，其特征在于，由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類，包括由所述主控節(jié)點(diǎn)給每個(gè)所述合并節(jié)點(diǎn)分配至少一個(gè)進(jìn)行合并的聚類。
5.一種聚類實(shí)現(xiàn)方法，其特征在于，包括步驟1、主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè) 樣本屬性的屬性值的和值，并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)；步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給所述主控節(jié)點(diǎn)；步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn) 信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，重復(fù)上述步驟2和步驟3 ；當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。
6.如權(quán)利要求5所述的聚類實(shí)現(xiàn)方法，其特征在于，還包括所述主控節(jié)點(diǎn)將每一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)；所述主控節(jié)點(diǎn)根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類。
7.如權(quán)利要求5或6所述的聚類實(shí)現(xiàn)方法，其特征在于，所述合并節(jié)點(diǎn)至少包括兩個(gè)；由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性；步驟2中所述傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)，具體包括所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性，將本地統(tǒng)計(jì)出的對應(yīng)聚類的樣本數(shù)量以及計(jì)算出的對應(yīng)聚類的所述對應(yīng)樣本屬性的屬性值的和值，上報(bào) 給對應(yīng)的合并節(jié)點(diǎn)；或者每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性，分別向每個(gè)所述計(jì)算節(jié) 點(diǎn)請求上傳所述對應(yīng)聚類的的對應(yīng)樣本屬性的統(tǒng)計(jì)信息；每個(gè)所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)所述合并節(jié)點(diǎn)請求的對應(yīng)聚類的對應(yīng)樣本屬性，向每個(gè)合并節(jié)點(diǎn)返回本地統(tǒng)計(jì)出的對應(yīng)聚類的樣本數(shù)量、以及計(jì)算出的該聚類的所述對應(yīng)樣本屬性的屬性值的和值，并攜帶與所述和值對應(yīng)的聚類標(biāo)識和樣本屬性標(biāo)識。
8.如權(quán)利要求7所述的聚類實(shí)現(xiàn)方法，其特征在于，由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)樣本屬性，包括由所述主控節(jié)點(diǎn)給每個(gè)所述合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè)樣本屬性。
9.一種聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn)；所述主控節(jié)點(diǎn)，用于對樣本分塊，并將分塊樣本分配給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息；并根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn) 更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)，當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息；所述計(jì)算節(jié)點(diǎn)，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值，并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn)；所述合并節(jié)點(diǎn)，用于對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，求取均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給所述主控節(jié)點(diǎn)。
10.如權(quán)利要求9所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述所述主控節(jié)點(diǎn)還用于，將每一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及根據(jù)每個(gè)所述計(jì)算節(jié) 點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類；每個(gè)所述計(jì)算節(jié)點(diǎn)還用于，分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)。
11.如權(quán)利要求9或10所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述合并節(jié)點(diǎn)至少包括兩個(gè)，所述合并節(jié)點(diǎn)的最大數(shù)量與所述聚類的數(shù)量相等；所述主控節(jié)點(diǎn)還用于，預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)進(jìn)行合并的聚類。
12.如權(quán)利要求11所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述計(jì)算節(jié)點(diǎn)和所述合并節(jié)點(diǎn) 全部為不同的節(jié)點(diǎn)；或者全部計(jì)算節(jié)點(diǎn)或部分計(jì)算節(jié)點(diǎn)為合并節(jié)點(diǎn)；或者部分計(jì)算節(jié)點(diǎn)為部分合并節(jié)點(diǎn)。
13.一種聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn)；所述主控節(jié)點(diǎn)，用于對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值；并根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略，當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí)，發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn)；當(dāng) 確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí)，將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息；所述計(jì)算節(jié)點(diǎn)，用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類；分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值，并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)；所述合并節(jié)點(diǎn)，用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值，計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值，并傳送給所述主控節(jié)點(diǎn)。
14.如權(quán)利要求13所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述主控節(jié)點(diǎn)還用于，將每一個(gè) 聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn)；以及根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識，確定出每個(gè)樣本所屬聚類；每個(gè)所述計(jì)算節(jié)點(diǎn)，還用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離，將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚類，并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)。
15.如權(quán)利要求13或14所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述合并節(jié)點(diǎn)至少包括兩個(gè)，所述合并節(jié)點(diǎn)的最大數(shù)量與所述聚類的數(shù)量和所述樣本的樣本屬性的數(shù)量的乘積相等；所述主控節(jié)點(diǎn)還用于，預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè)樣本屬性。
16.如權(quán)利要求15所述的聚類實(shí)現(xiàn)系統(tǒng)，其特征在于，所述計(jì)算節(jié)點(diǎn)和所述合并節(jié)點(diǎn) 全部為不同的節(jié)點(diǎn)；或者全部計(jì)算節(jié)點(diǎn)或部分計(jì)算節(jié)點(diǎn)為合并節(jié)點(diǎn)；或者部分計(jì)算節(jié)點(diǎn)為部分合并節(jié)點(diǎn)。
全文摘要
本發(fā)明公開了聚類實(shí)現(xiàn)方法及系統(tǒng)。包括由主控節(jié)點(diǎn)對樣本分塊，并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn)，由各計(jì)算節(jié)點(diǎn)并行參與計(jì)算，將本地樣本歸屬到對應(yīng)聚類中，并對每一個(gè)聚類統(tǒng)計(jì)本地各樣本的樣本值的和值傳送給合并節(jié)點(diǎn)，再由合并節(jié)點(diǎn)得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息，并傳送給主控節(jié)點(diǎn)，由主控節(jié)點(diǎn)判斷是否進(jìn)行聚類中心點(diǎn)更新，以及是否啟動下一輪聚類計(jì)算。本發(fā)明通過多個(gè)節(jié)點(diǎn)參與聚類實(shí)現(xiàn)過程，在聚類計(jì)算及合并過程中通過采用多個(gè)節(jié)點(diǎn)并行處理，解決了現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。
文檔編號G06F17/30GK101996197SQ20091009186
公開日2011年3月30日申請日期2009年8月31日優(yōu)先權(quán)日2009年8月31日
發(fā)明者何清, 周文輝, 孫少陵, 徐萌, 羅治國, 趙衛(wèi)中, 鄧超, 馬慧芳, 高丹申請人:中國移動通信集團(tuán)公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐萌;高丹;鄧超;羅治國;周文輝;孫少陵;何清;趙衛(wèi)中;馬慧芳
技術(shù)所有人：中國移動通信集團(tuán)公司
我是此專利的發(fā)明人

上一篇：聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法
上一篇：集群監(jiān)控的報(bào)表生成系統(tǒng)及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

系統(tǒng)聚類分析方法相關(guān)技術(shù)

系統(tǒng)聚類方法相關(guān)技術(shù)

系統(tǒng)聚類分析的方法相關(guān)技術(shù)

系統(tǒng)聚類的方法和步驟相關(guān)技術(shù)

spss系統(tǒng)聚類方法相關(guān)技術(shù)

python實(shí)現(xiàn)kmeans聚類相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法