午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法

文檔序號:6575465閱讀:170來源:國知局
專利名稱:聚類實(shí)現(xiàn)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及海量樣本數(shù)據(jù)的聚類實(shí)現(xiàn)方法及相應(yīng)系統(tǒng)。
背景技術(shù)
在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,已有的聚類算法可以分為幾類,包括基于劃分的方法,基于 層次的方法,基于密度的方法,基于網(wǎng)格的方法以及基于模型的方法等。進(jìn)行數(shù)據(jù)挖掘時(shí),需要將對全部數(shù)據(jù)進(jìn)行逐條計(jì)算及分析,算法時(shí)間復(fù)雜度高。海 量數(shù)據(jù)是對各種聚類算法的一個(gè)挑戰(zhàn)。已有的聚類算法大都還只是停留在實(shí)驗(yàn)室階段,對 于海量數(shù)據(jù),有些算法或者不能進(jìn)行有效處理,或者處理效率很低。Kmeans算法是一種基于距離的聚類實(shí)現(xiàn)方法,通過計(jì)算樣本點(diǎn)之間的距離,以判 斷樣本之間的類群關(guān)系。Kmeans算法的基本原理為根據(jù)設(shè)置的聚類,為每一個(gè)聚類指定一個(gè)初始的聚類中心點(diǎn)(即初始隨機(jī)指定樣 本空間中的樣本點(diǎn)為一個(gè)聚類的聚類中心點(diǎn));分別計(jì)算數(shù)據(jù)庫中的每一個(gè)樣本在樣本空 間中的對應(yīng)樣本點(diǎn)與每一個(gè)聚類中心點(diǎn)的距離,將每一個(gè)樣本歸屬到距離最小的對應(yīng)聚類 中心點(diǎn)所屬聚類中。對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚 類的各樣本的樣本值的和值,用和值除以樣本數(shù)量求取均值,得到本輪計(jì)算中每一個(gè)聚類 的對應(yīng)虛擬聚類中心點(diǎn);再計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)與對應(yīng)的聚類中心點(diǎn)之間的 距離,具體的距離計(jì)算方法可以采用現(xiàn)有技術(shù)數(shù)據(jù)挖掘中可以采用的歐氏距離計(jì)算法、巴 氏距離計(jì)算法以及馬氏距離計(jì)算法等,當(dāng)兩者之間的距離大于設(shè)定的距離閾值時(shí),用每一 個(gè)聚類的虛擬聚類中心點(diǎn)更新其對應(yīng)的聚類中心點(diǎn),開始下一輪計(jì)算,直到每一個(gè)聚類的 聚類中心點(diǎn)都不再需要更新后,結(jié)束流程,將最后一次更新后的聚類中心點(diǎn)作為每一個(gè)聚 類的實(shí)際聚類中心點(diǎn)。最后輸出每一個(gè)聚類的實(shí)際聚類中心點(diǎn),以及每個(gè)樣本所歸屬的聚 類。上述聚類實(shí)現(xiàn)方法,對于少量樣本,可以方便地在單機(jī)上實(shí)現(xiàn)。但對于海量樣本而 言,一方面由于單機(jī)內(nèi)存容量有限,不可能讀入海量的樣本數(shù)據(jù);另一方面,由于聚類過程 中需要進(jìn)行聚類中心點(diǎn)的多輪更新計(jì)算過程,處理時(shí)間很長,在實(shí)際的數(shù)據(jù)業(yè)務(wù)應(yīng)用中,效 率很低。因此,對于實(shí)際應(yīng)用中海量數(shù)據(jù)的處理,如何有效地提升處理效率是數(shù)據(jù)挖掘中 需要加以解決的一個(gè)主要問題。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供聚類實(shí)現(xiàn)方法及聚類實(shí)現(xiàn)系統(tǒng),通過采用多個(gè)節(jié)點(diǎn)并行處理, 解決現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。本發(fā)明實(shí)施例提供的一種聚類實(shí)現(xiàn)方法包括步驟1、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的 對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所 屬聚類;對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本 的樣本值的和值,并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn);步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量 和所述和值,求取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給所述主控節(jié)點(diǎn);步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存 的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的 虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本 次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟2和步 驟3 ;當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中 心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。本發(fā)明實(shí)施例提供的另一種聚類實(shí)現(xiàn)方法,包括步驟1、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的 分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的 對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所 屬聚類;分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每 一個(gè)樣本屬性的屬性值的和值,并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識 的所述和值給合并節(jié)點(diǎn);步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳 送的所述樣本數(shù)量和所述和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并 傳送給所述主控節(jié)點(diǎn);步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值, 得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息 以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保 存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中 心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟2和步驟3 ;當(dāng)確定出每一個(gè)聚類的聚類 中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚 類中心點(diǎn)信息。本發(fā)明實(shí)施例提供的一種聚類實(shí)現(xiàn)系統(tǒng),包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合 并節(jié)點(diǎn); 所述主控節(jié)點(diǎn),用于對樣本分塊,并將分塊樣本分配給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),將 分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及
接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息;并根據(jù)接收的每一 個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中 心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的 聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次 更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息;所述計(jì)算節(jié)點(diǎn),用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣 本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚 類;對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣 本值的和值,并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn);所述合并節(jié)點(diǎn),用于對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和 所述和值,求取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給所述主控節(jié)點(diǎn)。本發(fā)明實(shí)施例提供的另一種聚類實(shí)現(xiàn)系統(tǒng),包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及 合并節(jié)點(diǎn);所述主控節(jié)點(diǎn),用于對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配 的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值;并根據(jù) 接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn) 信息,根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定 出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā) 送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn); 當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信 息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息;所述計(jì)算節(jié)點(diǎn),用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣 本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚 類;分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè) 樣本屬性的屬性值的和值,并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所 述和值給合并節(jié)點(diǎn);所述合并節(jié)點(diǎn),用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送 的所述樣本數(shù)量和所述和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳 送給所述主控節(jié)點(diǎn)。本發(fā)明提供的聚類實(shí)現(xiàn)方法及系統(tǒng)中,將待處理的樣本分塊后分配給不同的計(jì)算 節(jié)點(diǎn)處理,解決了海量數(shù)據(jù)無法全部由單機(jī)讀入內(nèi)存進(jìn)行計(jì)算處理的問題;本發(fā)明提供的 聚類實(shí)現(xiàn)方法中,采用了至少兩個(gè)計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算過程,加快了計(jì)算速度;再 通過合并節(jié)點(diǎn)進(jìn)行有效合并,充分利用系統(tǒng)中各節(jié)點(diǎn)的計(jì)算資源,有效解決了現(xiàn)有技術(shù)對 海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。


圖1為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的步驟流程圖;圖2為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的實(shí)際應(yīng)用流程圖;圖3為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的步驟流程圖;圖4為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的實(shí)際應(yīng)用流程圖;圖5為本發(fā)明實(shí)施例提供的與聚類實(shí)現(xiàn)方法一相對應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例提供的與聚類實(shí)現(xiàn)方法二相對應(yīng)的聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)示意 圖。
具體實(shí)施例方式下面結(jié)合附圖,對本發(fā)明提供的聚類實(shí)現(xiàn)方法流程及聚類實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)進(jìn)行詳細(xì) 說明。參見圖1,為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法一的步驟流程圖,包括下列步驟步驟S101、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配 的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn);步驟S102、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的 對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚 類;對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣 本值的和值,并傳送樣本數(shù)量和和值給合并節(jié)點(diǎn);步驟S103、合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值,求 取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給主控節(jié)點(diǎn);步驟S104、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的 每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛 擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次 未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟S102和 步驟S103 ;當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚 類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。參見圖2,為本發(fā)明實(shí)施例提供的上述聚類實(shí)現(xiàn)方法一的實(shí)際應(yīng)用流程圖,包括步驟S201、主控節(jié)點(diǎn)對樣本分塊并將分塊樣本分配給各計(jì)算節(jié)點(diǎn);以及根據(jù)聚類 數(shù)量(假設(shè)為K個(gè)聚類)在樣本空間中任選K個(gè)聚類中心點(diǎn),作為每個(gè)聚類的初始的聚類 中心點(diǎn)。實(shí)際中,主控節(jié)點(diǎn)根據(jù)參與計(jì)算的計(jì)算節(jié)點(diǎn)數(shù)量(假設(shè)為N個(gè)),將待處理的全部 樣本分成相應(yīng)數(shù)量的分塊(N個(gè)分塊),并將每一個(gè)分塊樣本分配給不同的計(jì)算節(jié)點(diǎn)。步驟S202、主控節(jié)點(diǎn)將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每 個(gè)計(jì)算節(jié)點(diǎn)。其中,每一個(gè)聚類的聚類中心點(diǎn)信息可以寫入配置文件,分別傳送給各計(jì)算節(jié)點(diǎn)。步驟S203、每個(gè)計(jì)算節(jié)點(diǎn)并行地分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間 中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,并進(jìn)行距離比較,將本地每個(gè)樣本歸屬到距離最 小的對應(yīng)聚類中心點(diǎn)所屬聚類。步驟S204、每個(gè)計(jì)算節(jié)點(diǎn)并行地對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù) 量以及計(jì)算屬于該聚類的各樣本的樣本值的和值,并傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)。實(shí)際應(yīng)用中,為了加快合并速度,可以采用多個(gè)合并節(jié)點(diǎn)并行合并的方式。并由主 控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類。一個(gè)合并節(jié)點(diǎn)至少合并一個(gè)聚類,當(dāng) 然,一個(gè)合并節(jié)點(diǎn)也可以合并兩個(gè)或多個(gè)聚類。5/10 頁一般情況下,進(jìn)行數(shù)據(jù)挖掘的樣本包含有多個(gè)樣本屬性,計(jì)算各樣本的樣本值的 和值時(shí),是對每一個(gè)樣本屬性,分別計(jì)算樣本屬性的屬性值的和值。例如,假設(shè)有三個(gè)樣本, 分別為樣本1、樣本2和樣本3屬于同一個(gè)聚類,每一個(gè)樣本包含有三個(gè)樣本屬性,分別為屬 性a、屬性b和屬性c,該三個(gè)樣本對應(yīng)的屬性值如下樣本1 ^VCi ;樣本2 :a2、b2、c2 ;樣本3 :a3、b3、c3 ;則計(jì)算出的樣本值的和值為ai+aja^ b.+b^, Cl+C2+C3。傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)的具體方法可以有如下兩種方法一由主控節(jié)點(diǎn)將各合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類,預(yù)先通知給各計(jì)算節(jié)點(diǎn), 各計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類,將本地統(tǒng)計(jì)出的屬于對應(yīng)聚類的樣本 數(shù)量以及計(jì)算出的屬于該對應(yīng)聚類的各樣本的樣本值的和值,上報(bào)給對應(yīng)的合并節(jié)點(diǎn);方法二 由每個(gè)合并節(jié)點(diǎn)向每個(gè)計(jì)算節(jié)點(diǎn)收集信息。即每個(gè)合并節(jié)點(diǎn)根據(jù)自身 進(jìn)行合并的對應(yīng)聚類,分別向每個(gè)計(jì)算節(jié)點(diǎn)請求上傳對應(yīng)聚類的統(tǒng)計(jì)信息;每個(gè)計(jì)算節(jié)點(diǎn) 向每個(gè)合并節(jié)點(diǎn)返回其請求的對應(yīng)聚類在本地統(tǒng)計(jì)出的樣本數(shù)量以及計(jì)算出的屬于對應(yīng) 聚類的各樣本的樣本值的和值。步驟S205、合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值,求 取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給主控節(jié)點(diǎn)。其中,均值的計(jì)算,就是對每一個(gè)聚類,將每個(gè)計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的和值 進(jìn)行累加,得到總和值,再累加每個(gè)計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的樣本數(shù)量,得到樣本總數(shù) 量,用總和值除了樣本總數(shù)量,得到該聚類的本輪計(jì)算的均值,即為該聚類的本輪計(jì)算的虛 擬聚類中心點(diǎn)信息。步驟S206、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的 每一個(gè)聚類的聚類中心點(diǎn)信息,計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)和其當(dāng)前的聚類中心點(diǎn) 之間的距離,并與設(shè)定的距離閾值比較。步驟S207、主控節(jié)點(diǎn)對每一個(gè)聚類分別判斷計(jì)算出的距離是否大于設(shè)定的距離閾 值;只要存在一個(gè)聚類,其計(jì)算出的對應(yīng)距離大于設(shè)定的距離閾值,執(zhí)行步驟S208,僅當(dāng)全 部聚類計(jì)算出的對應(yīng)距離都小于設(shè)定的距離閾值時(shí),執(zhí)行步驟S209。步驟S208、主控節(jié)點(diǎn)將計(jì)算出的距離值大于設(shè)定閾值的對應(yīng)聚類的虛擬聚類中心 點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息,發(fā)送本次更新后的和本次未更新的每一 個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn),轉(zhuǎn)至步驟S203 ;步驟S209、主控節(jié)點(diǎn)將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際 聚類中心點(diǎn)信息。一實(shí)施方式中,主控節(jié)點(diǎn)獲取到每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息后,還可以利 用各計(jì)算節(jié)點(diǎn)并行計(jì)算出每一個(gè)樣本所屬聚類,具體為所述主控節(jié)點(diǎn)將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn);每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚 類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn);
主控節(jié)點(diǎn)根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出每個(gè) 樣本所屬聚類。上述聚類實(shí)現(xiàn)方法一中,采用了兩個(gè)以上的計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算,提高 了計(jì)算效率。且每個(gè)計(jì)算節(jié)點(diǎn)僅處理一部分樣本數(shù)據(jù),解決了海量數(shù)據(jù)由單機(jī)無法實(shí)現(xiàn)處 理的問題。且可以按照聚類數(shù)量設(shè)置相應(yīng)數(shù)量的合并節(jié)點(diǎn),使合并過程也并行化,進(jìn)一步提 高合并處理速度。參見圖3,為本發(fā)明實(shí)施例提供的聚類實(shí)現(xiàn)方法二的步驟流程圖,包括下列步驟步驟S301、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配 的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn);步驟S302、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對 應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬 聚類;分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一 個(gè)樣本屬性的屬性值的和值,并傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的和值 給合并節(jié)點(diǎn);步驟S303、合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的 樣本數(shù)量及和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳送給主控節(jié)點(diǎn)。步驟S304、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值, 得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息 以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保 存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中 心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟S302和步驟S303 ;當(dāng)確定出每一個(gè)聚類 的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的 實(shí)際聚類中心點(diǎn)信息。參見圖4,為本發(fā)明實(shí)施例提供的上述聚類實(shí)現(xiàn)方法二的實(shí)際應(yīng)用流程圖,包括步驟S401、主控節(jié)點(diǎn)對樣本分塊并將分塊樣本分配給各計(jì)算節(jié)點(diǎn);以及根據(jù)聚類 數(shù)量(假設(shè)為K個(gè)聚類)在樣本空間中任選K個(gè)聚類中心點(diǎn),作為每個(gè)聚類的初始的聚類 中心點(diǎn)。實(shí)際中,主控節(jié)點(diǎn)根據(jù)參與計(jì)算的計(jì)算節(jié)點(diǎn)數(shù)量(假設(shè)為N個(gè)),將待處理的全部 樣本分成相應(yīng)數(shù)量的分塊(N個(gè)分塊),并將每一個(gè)分塊樣本分配給不同的計(jì)算節(jié)點(diǎn)。步驟S402、主控節(jié)點(diǎn)將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每 個(gè)計(jì)算節(jié)點(diǎn)。步驟S403、每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對 應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬 聚類。步驟S404、每個(gè)計(jì)算節(jié)點(diǎn)并行地分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì) 算屬于該聚類的各樣本包含的每一個(gè)樣本屬性的屬性值的和值,并傳送樣本數(shù)量、以及攜 帶聚類標(biāo)識和樣本屬性標(biāo)識的和值給合并節(jié)點(diǎn)。同上例,實(shí)際應(yīng)用中,為了加快合并速度,可以采用多個(gè)合并節(jié)點(diǎn)并行合并的方式。并由主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性。一個(gè)合并 節(jié)點(diǎn)至少合并一個(gè)聚類的一個(gè)樣本屬性,當(dāng)然,一個(gè)合并節(jié)點(diǎn)也可以合并兩個(gè)或多個(gè)樣本 屬性。傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn)的具體 方法可以有如下兩種方法一由主控節(jié)點(diǎn)將各合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)樣本屬性,預(yù)先通知給各計(jì)算 節(jié)點(diǎn),所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性,將本地統(tǒng)計(jì) 出的對應(yīng)聚類的樣本數(shù)量以及計(jì)算出的對應(yīng)聚類的對應(yīng)樣本屬性的屬性值的和值,上報(bào)給 對應(yīng)的合并節(jié)點(diǎn);方法二 由每個(gè)合并節(jié)點(diǎn)向每個(gè)計(jì)算節(jié)點(diǎn)收集信息。每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行 合并的對應(yīng)聚類的對應(yīng)樣本屬性,分別向每個(gè)計(jì)算節(jié)點(diǎn)請求上傳對應(yīng)聚類的對應(yīng)樣本屬性 的統(tǒng)計(jì)信息;每個(gè)計(jì)算節(jié)點(diǎn)向每個(gè)合并節(jié)點(diǎn)返回本地統(tǒng)計(jì)出的對應(yīng)聚類的樣本數(shù)量、以及 計(jì)算出的對應(yīng)聚類的對應(yīng)樣本屬性的屬性值的和值,并攜帶與和值對應(yīng)的聚類標(biāo)識和樣本 屬性標(biāo)識。步驟S405、合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣 本數(shù)量及和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳送給主控節(jié)點(diǎn)。其中,均值的計(jì)算,就是對每一個(gè)聚類的每一個(gè)樣本屬性,將計(jì)算節(jié)點(diǎn)傳送的對應(yīng) 該聚類的該樣本屬性的和值進(jìn)行累加,得到總和值,再累加計(jì)算節(jié)點(diǎn)傳送的對應(yīng)該聚類的 樣本數(shù)量,得到樣本總數(shù)量,用總和值除了樣本總數(shù)量,得到該聚類該樣本屬性的屬性值的 均值。步驟S406、主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值, 得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,計(jì)算每一個(gè)聚類的虛擬聚類中心點(diǎn)和其當(dāng)前的聚 類中心點(diǎn)之間的距離,并與設(shè)定的距離閾值比較。步驟S407、主控節(jié)點(diǎn)對每一個(gè)聚類分別判斷計(jì)算出的距離是否大于設(shè)定的距離閾 值;只要存在一個(gè)聚類,其計(jì)算出的對應(yīng)距離大于設(shè)定的距離閾值,執(zhí)行步驟S408,僅當(dāng)全 部聚類計(jì)算出的對應(yīng)距離都小于設(shè)定的距離閾值時(shí),執(zhí)行步驟S409。步驟S408、主控節(jié)點(diǎn)將計(jì)算出的距離值大于設(shè)定閾值的對應(yīng)聚類的虛擬聚類中心 點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息,發(fā)送本次更新后的和本次未更新的每一 個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn),轉(zhuǎn)至步驟S403 ;步驟S409、主控節(jié)點(diǎn)將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際 聚類中心點(diǎn)信息。一實(shí)施方式中,主控節(jié)點(diǎn)獲取到每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息后,還可以利 用各計(jì)算節(jié)點(diǎn)并行計(jì)算出每一個(gè)樣本所屬聚類,具體為所述主控節(jié)點(diǎn)將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn);每個(gè)計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬聚 類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn);主控節(jié)點(diǎn)根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出每個(gè) 樣本所屬聚類。
上述聚類實(shí)現(xiàn)方法二中,采用了兩個(gè)以上的計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算,提高 了計(jì)算效率。且每個(gè)計(jì)算節(jié)點(diǎn)僅處理一部分樣本數(shù)據(jù),解決了海量數(shù)據(jù)由單機(jī)無法實(shí)現(xiàn)處 理的問題。且可以按照樣本屬性數(shù)量設(shè)置相應(yīng)數(shù)量的合并節(jié)點(diǎn),使合并過程也并行化,進(jìn) 一步提高合并處理速度。相對于上述聚類實(shí)現(xiàn)方法一,由于樣本的樣本屬性一般為50-100 個(gè),最多設(shè)置的合并節(jié)點(diǎn)數(shù)量可以是聚類數(shù)量乘以樣本屬性數(shù)量的乘積,因此,可以有大量 的合并節(jié)點(diǎn)參與合并處理,大大提高并行處理效率。上述聚類實(shí)現(xiàn)方法中,可以采用Map/Reduce函數(shù)來實(shí)現(xiàn)。在各計(jì)算節(jié)點(diǎn)中采用 Map函數(shù)并行地參與聚類計(jì)算,輸出本地屬于各聚類的樣本數(shù)量以及各聚類包含的各樣本 的樣本值的和值,并傳送給合并節(jié)點(diǎn)。合并節(jié)點(diǎn)采用Reduce函數(shù),針對每一個(gè)聚類根據(jù)每 個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值,求取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息。 Map/Reduce函數(shù)中的Key和Value對,根據(jù)實(shí)際需要處理的對象及處理結(jié)果分別確定。上述方法一中Map函數(shù)的處理過程每個(gè)Map函數(shù)處理一條樣本數(shù)據(jù),計(jì)算該樣本數(shù)據(jù)與各聚類 初始中心點(diǎn)(或各聚類的上一次中心點(diǎn))的距離,得到距離最近的一個(gè)中心點(diǎn)。Map函數(shù)的 輸出key為距離最近的中心點(diǎn)的標(biāo)識,value為對應(yīng)的樣本數(shù)據(jù)。每一個(gè)計(jì)算節(jié)點(diǎn)可以采用Combiner函數(shù)進(jìn)行本地合并,收集所有key相同的樣本 數(shù)據(jù),輸出key為該中心點(diǎn)的標(biāo)識,value為樣本數(shù)據(jù)的各屬性分別向量求和的和值以及樣 本個(gè)數(shù)。合并節(jié)點(diǎn)運(yùn)行reduce函數(shù),Reduce函數(shù)的輸入為combiner函數(shù)的輸出。Reduce 函數(shù)處理過程為,將相同key的value收集,求得向量求和和個(gè)數(shù)求和,再得到均值即向 量求和/個(gè)數(shù)求和,得到新的中心點(diǎn)。Reduce函數(shù)的輸出為輸出key為新的中心點(diǎn)標(biāo)識, value為新中心點(diǎn)數(shù)據(jù),將結(jié)果寫入配置文件,作為下一次重復(fù)執(zhí)行的初始中心點(diǎn)。上述方法二中計(jì)算節(jié)點(diǎn)運(yùn)行Map函數(shù)及Combiner函數(shù)過程同上,不同之處在于Combiner函數(shù) 的輸出是將key設(shè)為中心點(diǎn)標(biāo)識_屬性名稱,value為該屬性值的求和及個(gè)數(shù)和。合并節(jié) 點(diǎn)運(yùn)行reduce函數(shù),Reduce函數(shù)的輸入為combiner函數(shù)的輸出。Reduce處理過程,求得 中心點(diǎn)標(biāo)示_屬性名稱的均值,輸出至配置文件?;谕话l(fā)明構(gòu)思,根據(jù)本發(fā)明上述實(shí)施例提供的聚類實(shí)現(xiàn)方法一,本發(fā)明提供 一種相應(yīng)的聚類實(shí)現(xiàn)系統(tǒng),其結(jié)構(gòu)示意圖如圖5所示,包括主控節(jié)點(diǎn)51、至少兩個(gè)計(jì)算節(jié) 點(diǎn)52及合并節(jié)點(diǎn)53 ;主控節(jié)點(diǎn)51,用于對樣本分塊,并將分塊樣本分配給計(jì)算節(jié)點(diǎn)52,將分配的分塊 樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)52 ;以及接收合并節(jié)點(diǎn)53傳送 的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息;并根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和 當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一 個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新 后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)52,當(dāng)確定出每一個(gè)聚類的 聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí) 際聚類中心點(diǎn)信息;計(jì)算節(jié)點(diǎn)52,用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;對每 一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的 和值,并傳送樣本數(shù)量及和值給合并節(jié)點(diǎn)53 ;合并節(jié)點(diǎn)53,用于對每一個(gè)聚類根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量及和值,求取 均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給主控節(jié)點(diǎn)51。一具體實(shí)施例中,主控節(jié)點(diǎn)51還用于,將獲得的每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信 息傳送給每個(gè)計(jì)算節(jié)點(diǎn)52 ;以及根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)52返回的樣本標(biāo)識與所屬聚類的聚類 標(biāo)識,確定出每個(gè)樣本所屬聚類;每個(gè)計(jì)算節(jié)點(diǎn)52還用于,分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的 對應(yīng)樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類 中心點(diǎn)所屬聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)51。一實(shí)施例中,合并節(jié)點(diǎn)53至少包括兩個(gè),合并節(jié)點(diǎn)53的最大數(shù)量與聚類的數(shù)量相寸。主控節(jié)點(diǎn)51還用于,預(yù)先給每個(gè)合并節(jié)點(diǎn)53分配至少一個(gè)進(jìn)行合并的聚類。圖5中,示意出各計(jì)算節(jié)點(diǎn)52和各合并節(jié)點(diǎn)53分別為不同的節(jié)點(diǎn)。實(shí)際應(yīng)用中, 計(jì)算節(jié)點(diǎn)52和合并節(jié)點(diǎn)53除全部為不同的節(jié)點(diǎn)外,還可以是每一個(gè)計(jì)算節(jié)點(diǎn)52或部分計(jì)算節(jié)點(diǎn)52為合并節(jié)點(diǎn)53 ;或者部分計(jì)算節(jié)點(diǎn)52為 部分合并節(jié)點(diǎn)53?;谕话l(fā)明構(gòu)思,根據(jù)本發(fā)明上述實(shí)施例提供的聚類實(shí)現(xiàn)方法二,本發(fā)明提供 一種相應(yīng)的聚類實(shí)現(xiàn)系統(tǒng),其結(jié)構(gòu)示意圖如圖6所示,包括主控節(jié)點(diǎn)61、至少兩個(gè)計(jì)算節(jié) 點(diǎn)62及合并節(jié)點(diǎn)63 ;主控節(jié)點(diǎn)61,用于對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的 分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)計(jì)算節(jié)點(diǎn)62 ;以及接收合并節(jié)點(diǎn)63 傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值;并根據(jù)接收的每一個(gè)聚類的每一個(gè) 樣本屬性的屬性值的均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,根據(jù)當(dāng)前保存的每一 個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚 類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更 新的每一個(gè)聚類的聚類中心點(diǎn)信息給計(jì)算節(jié)點(diǎn)62 ;當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信 息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn) fn息;計(jì)算節(jié)點(diǎn)62,用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本 點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;分別 統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本屬 性的屬性值的和值,并傳送樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的和值給合并節(jié) 點(diǎn)63 ;合并節(jié)點(diǎn)63,用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)計(jì)算節(jié)點(diǎn)傳送的樣本數(shù)量 及和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳送給主控節(jié)點(diǎn)61。一實(shí)施例中,主控節(jié)點(diǎn)61還用于,將每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息傳送給每 個(gè)計(jì)算節(jié)點(diǎn)62 ;以及根據(jù)每個(gè)計(jì)算節(jié)點(diǎn)62返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出每個(gè)樣本所屬聚類;計(jì)算節(jié)點(diǎn)62,還用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣 本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn) 所屬聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給主控節(jié)點(diǎn)61?!獙?shí)施例中,合并節(jié)點(diǎn)63至少包括兩個(gè),合并節(jié)點(diǎn)的最大數(shù)量與聚類的數(shù)量和樣 本的樣本屬性的數(shù)量的乘積相等。主控節(jié)點(diǎn)61還用于,預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè) 樣本屬性。圖6中,示意出各計(jì)算節(jié)點(diǎn)62和各合并節(jié)點(diǎn)63分別為不同的節(jié)點(diǎn)。實(shí)際應(yīng)用中, 計(jì)算節(jié)點(diǎn)62和合并節(jié)點(diǎn)63除全部為不同的節(jié)點(diǎn)外,還可以是每一個(gè)計(jì)算節(jié)點(diǎn)62或部分計(jì)算節(jié)點(diǎn)62為合并節(jié)點(diǎn);或者部分計(jì)算節(jié)點(diǎn)62為部分 合并節(jié)點(diǎn)63。本發(fā)明提供的聚類實(shí)現(xiàn)方法及系統(tǒng)中,將待處理的樣本分塊后分配給不同的計(jì)算 節(jié)點(diǎn)處理,解決了海量數(shù)據(jù)無法全部由單機(jī)讀入內(nèi)存進(jìn)行計(jì)算處理的問題;本發(fā)明提供的 聚類實(shí)現(xiàn)方法中,采用了至少兩個(gè)計(jì)算節(jié)點(diǎn)并行地參與聚類計(jì)算過程,加快了計(jì)算速度;再 通過合并節(jié)點(diǎn)進(jìn)行有效合并,充分利用系統(tǒng)中各節(jié)點(diǎn)的計(jì)算資源,有效解決了現(xiàn)有技術(shù)對 海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
一種聚類實(shí)現(xiàn)方法,其特征在于,包括步驟1、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;對每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值的和值,并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn);步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述和值,求取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給所述主控節(jié)點(diǎn);步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟2和步驟3;當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息。
2.如權(quán)利要求1所述的聚類實(shí)現(xiàn)方法,其特征在于,還包括所述主控節(jié)點(diǎn)將每一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬 聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn);所述主控節(jié)點(diǎn)根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出 每個(gè)樣本所屬聚類。
3.如權(quán)利要求1或2所述的聚類實(shí)現(xiàn)方法,其特征在于,所述合并節(jié)點(diǎn)至少包括兩個(gè); 由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類;步驟2中所述傳送所述樣本 數(shù)量和所述和值給合并節(jié)點(diǎn),具體包括所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類,將本地統(tǒng)計(jì)出的屬于所述對應(yīng) 聚類的樣本數(shù)量以及計(jì)算出的屬于所述對應(yīng)聚類的各樣本的樣本值的和值,上報(bào)給對應(yīng)的 合并節(jié)點(diǎn);或者每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類,分別向每個(gè)所述計(jì)算節(jié)點(diǎn)請求上傳所述 對應(yīng)聚類的統(tǒng)計(jì)信息;每個(gè)所述計(jì)算節(jié)點(diǎn)向每個(gè)合并節(jié)點(diǎn)返回其請求的所述對應(yīng)聚類在本 地統(tǒng)計(jì)出的樣本數(shù)量以及計(jì)算出的屬于所述對應(yīng)聚類的各樣本的樣本值的和值。
4.如權(quán)利要求3所述的聚類實(shí)現(xiàn)方法,其特征在于,由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合 并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類,包括由所述主控節(jié)點(diǎn)給每個(gè)所述合并節(jié)點(diǎn)分配至少一個(gè)進(jìn)行合并的聚類。
5.一種聚類實(shí)現(xiàn)方法,其特征在于,包括步驟1、主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的分塊 樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);步驟2、每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;分別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè) 樣本屬性的屬性值的和值,并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所 述和值給合并節(jié)點(diǎn);步驟3、所述合并節(jié)點(diǎn)對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的 所述樣本數(shù)量和所述和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳送 給所述主控節(jié)點(diǎn);步驟4、所述主控節(jié)點(diǎn)根據(jù)接收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,得到 每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及 設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的 該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn) 信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),重復(fù)上述步驟2和步驟3 ;當(dāng)確定出每一個(gè)聚類的聚類中心 點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中 心點(diǎn)信息。
6.如權(quán)利要求5所述的聚類實(shí)現(xiàn)方法,其特征在于,還包括所述主控節(jié)點(diǎn)將每一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);每個(gè)所述計(jì)算節(jié)點(diǎn)分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心點(diǎn)所屬 聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn);所述主控節(jié)點(diǎn)根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出 每個(gè)樣本所屬聚類。
7.如權(quán)利要求5或6所述的聚類實(shí)現(xiàn)方法,其特征在于,所述合并節(jié)點(diǎn)至少包括兩個(gè); 由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性;步驟2中所 述傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和值給合并節(jié)點(diǎn),具體包 括所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)合并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性,將本地統(tǒng)計(jì)出 的對應(yīng)聚類的樣本數(shù)量以及計(jì)算出的對應(yīng)聚類的所述對應(yīng)樣本屬性的屬性值的和值,上報(bào) 給對應(yīng)的合并節(jié)點(diǎn);或者每個(gè)合并節(jié)點(diǎn)根據(jù)自身進(jìn)行合并的對應(yīng)聚類的對應(yīng)樣本屬性,分別向每個(gè)所述計(jì)算節(jié) 點(diǎn)請求上傳所述對應(yīng)聚類的的對應(yīng)樣本屬性的統(tǒng)計(jì)信息;每個(gè)所述計(jì)算節(jié)點(diǎn)根據(jù)每個(gè)所述 合并節(jié)點(diǎn)請求的對應(yīng)聚類的對應(yīng)樣本屬性,向每個(gè)合并節(jié)點(diǎn)返回本地統(tǒng)計(jì)出的對應(yīng)聚類的 樣本數(shù)量、以及計(jì)算出的該聚類的所述對應(yīng)樣本屬性的屬性值的和值,并攜帶與所述和值 對應(yīng)的聚類標(biāo)識和樣本屬性標(biāo)識。
8.如權(quán)利要求7所述的聚類實(shí)現(xiàn)方法,其特征在于,由所述主控節(jié)點(diǎn)預(yù)先分配每個(gè)合 并節(jié)點(diǎn)進(jìn)行合并的對應(yīng)樣本屬性,包括由所述主控節(jié)點(diǎn)給每個(gè)所述合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè)樣本屬性。
9.一種聚類實(shí)現(xiàn)系統(tǒng),其特征在于,包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn);所述主控節(jié)點(diǎn),用于對樣本分塊,并將分塊樣本分配給所述至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息;并根據(jù)接收的每一個(gè)聚類的虛擬聚類中心點(diǎn)信息和當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn) 更新策略,當(dāng)確定出至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類 中心點(diǎn)信息時(shí),發(fā)送本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至 少兩個(gè)計(jì)算節(jié)點(diǎn),當(dāng)確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新 后的聚類中心點(diǎn)信息作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息;所述計(jì)算節(jié)點(diǎn),用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;對 每一個(gè)聚類分別統(tǒng)計(jì)本地屬于該聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本的樣本值 的和值,并傳送所述樣本數(shù)量和所述和值給合并節(jié)點(diǎn);所述合并節(jié)點(diǎn),用于對每一個(gè)聚類根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所述樣本數(shù)量和所述 和值,求取均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給所述主控節(jié)點(diǎn)。
10.如權(quán)利要求9所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述所述主控節(jié)點(diǎn)還用于,將每 一個(gè)聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及根據(jù)每個(gè)所述計(jì)算節(jié) 點(diǎn)返回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出每個(gè)樣本所屬聚類;每個(gè)所述計(jì)算節(jié)點(diǎn)還用于,分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心 點(diǎn)所屬聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)。
11.如權(quán)利要求9或10所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述合并節(jié)點(diǎn)至少包括兩 個(gè),所述合并節(jié)點(diǎn)的最大數(shù)量與所述聚類的數(shù)量相等;所述主控節(jié)點(diǎn)還用于,預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)進(jìn)行合并的聚類。
12.如權(quán)利要求11所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述計(jì)算節(jié)點(diǎn)和所述合并節(jié)點(diǎn) 全部為不同的節(jié)點(diǎn);或者全部計(jì)算節(jié)點(diǎn)或部分計(jì)算節(jié)點(diǎn)為合并節(jié)點(diǎn);或者部分計(jì)算節(jié)點(diǎn)為部分合并節(jié)點(diǎn)。
13.一種聚類實(shí)現(xiàn)系統(tǒng),其特征在于,包括主控節(jié)點(diǎn)、至少兩個(gè)計(jì)算節(jié)點(diǎn)及合并節(jié)點(diǎn);所述主控節(jié)點(diǎn),用于對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),將分配的分塊樣本和每一個(gè)聚類的聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及接收所述合并節(jié)點(diǎn)傳送的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值;并根據(jù)接 收的每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信 息,根據(jù)當(dāng)前保存的每一個(gè)聚類的聚類中心點(diǎn)信息以及設(shè)定的中心點(diǎn)更新策略,當(dāng)確定出 至少由一個(gè)聚類的虛擬聚類中心點(diǎn)信息更新當(dāng)前保存的該聚類的聚類中心點(diǎn)信息時(shí),發(fā)送 本次更新后的和本次未更新的每一個(gè)聚類的聚類中心點(diǎn)信息給所述至少兩個(gè)計(jì)算節(jié)點(diǎn);當(dāng) 確定出每一個(gè)聚類的聚類中心點(diǎn)信息都不再更新時(shí),將最后一次更新后的聚類中心點(diǎn)信息 作為每一個(gè)聚類的實(shí)際聚類中心點(diǎn)信息;所述計(jì)算節(jié)點(diǎn),用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng)樣本點(diǎn) 與各聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)聚類中心點(diǎn)所屬聚類;分 別統(tǒng)計(jì)本地屬于每一個(gè)聚類的樣本數(shù)量以及計(jì)算屬于該聚類的各樣本包含的每一個(gè)樣本 屬性的屬性值的和值,并傳送所述樣本數(shù)量、以及攜帶聚類標(biāo)識和樣本屬性標(biāo)識的所述和 值給合并節(jié)點(diǎn);所述合并節(jié)點(diǎn),用于對每一個(gè)聚類的每一個(gè)樣本屬性根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)傳送的所 述樣本數(shù)量和所述和值,計(jì)算出每一個(gè)聚類的每一個(gè)樣本屬性的屬性值的均值,并傳送給 所述主控節(jié)點(diǎn)。
14.如權(quán)利要求13所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述主控節(jié)點(diǎn)還用于,將每一個(gè) 聚類的所述實(shí)際聚類中心點(diǎn)信息傳送給每個(gè)所述計(jì)算節(jié)點(diǎn);以及根據(jù)每個(gè)所述計(jì)算節(jié)點(diǎn)返 回的樣本標(biāo)識與所屬聚類的聚類標(biāo)識,確定出每個(gè)樣本所屬聚類;每個(gè)所述計(jì)算節(jié)點(diǎn),還用于分別計(jì)算分配的分塊樣本中每個(gè)樣本在樣本空間中的對應(yīng) 樣本點(diǎn)與各實(shí)際聚類中心點(diǎn)的距離,將每個(gè)樣本歸屬到所述距離最小的對應(yīng)實(shí)際聚類中心 點(diǎn)所屬聚類,并返回樣本標(biāo)識與所屬聚類的聚類標(biāo)識給所述主控節(jié)點(diǎn)。
15.如權(quán)利要求13或14所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述合并節(jié)點(diǎn)至少包括 兩個(gè),所述合并節(jié)點(diǎn)的最大數(shù)量與所述聚類的數(shù)量和所述樣本的樣本屬性的數(shù)量的乘積相 等;所述主控節(jié)點(diǎn)還用于,預(yù)先給每個(gè)合并節(jié)點(diǎn)分配至少一個(gè)聚類的進(jìn)行合并的一個(gè)樣本 屬性。
16.如權(quán)利要求15所述的聚類實(shí)現(xiàn)系統(tǒng),其特征在于,所述計(jì)算節(jié)點(diǎn)和所述合并節(jié)點(diǎn) 全部為不同的節(jié)點(diǎn);或者全部計(jì)算節(jié)點(diǎn)或部分計(jì)算節(jié)點(diǎn)為合并節(jié)點(diǎn);或者部分計(jì)算節(jié)點(diǎn)為部分合并節(jié)點(diǎn)。
全文摘要
本發(fā)明公開了聚類實(shí)現(xiàn)方法及系統(tǒng)。包括由主控節(jié)點(diǎn)對樣本分塊,并將分塊樣本分配給至少兩個(gè)計(jì)算節(jié)點(diǎn),由各計(jì)算節(jié)點(diǎn)并行參與計(jì)算,將本地樣本歸屬到對應(yīng)聚類中,并對每一個(gè)聚類統(tǒng)計(jì)本地各樣本的樣本值的和值傳送給合并節(jié)點(diǎn),再由合并節(jié)點(diǎn)得到每一個(gè)聚類的虛擬聚類中心點(diǎn)信息,并傳送給主控節(jié)點(diǎn),由主控節(jié)點(diǎn)判斷是否進(jìn)行聚類中心點(diǎn)更新,以及是否啟動下一輪聚類計(jì)算。本發(fā)明通過多個(gè)節(jié)點(diǎn)參與聚類實(shí)現(xiàn)過程,在聚類計(jì)算及合并過程中通過采用多個(gè)節(jié)點(diǎn)并行處理,解決了現(xiàn)有技術(shù)對海量數(shù)據(jù)無法實(shí)現(xiàn)聚類處理及處理效率低的問題。
文檔編號G06F17/30GK101996197SQ20091009186
公開日2011年3月30日 申請日期2009年8月31日 優(yōu)先權(quán)日2009年8月31日
發(fā)明者何清, 周文輝, 孫少陵, 徐萌, 羅治國, 趙衛(wèi)中, 鄧超, 馬慧芳, 高丹 申請人:中國移動通信集團(tuán)公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1