午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

噪聲點檢測方法及裝置與流程

文檔序號:11654995閱讀:623來源:國知局
噪聲點檢測方法及裝置與流程

本公開涉及聚類領域,具體地,涉及一種噪聲點檢測方法及裝置。



背景技術:

k-means是著名的聚類算法,其算法基本思想是:算法接受參數(shù)k;然后將事先輸入的n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的,這些聚類被稱為簇。

雖然k-means具有計算時間短、速度快的特點,但是,其也存在一些缺點,例如,對異常值敏感。所謂的異常值是指數(shù)據(jù)的噪聲點(離群點)。噪聲指在一組數(shù)據(jù)中無法解釋的數(shù)據(jù)變動,就是一些不和其他數(shù)據(jù)相一致的數(shù)據(jù)。由于k-means算法特點,導致其對離群點敏感(會使某個或是某幾個中心點偏移),所以去除離群點對算法來說很重要。現(xiàn)有的方法中,去除噪聲點的方法是設置閾值,比如設置閾值為一個簇的半徑的1.5倍,如果有點超過這個閾值則認為是噪聲。這種方法的問題在于,設定一個準確、合理的閾值是比較困難的,特別是當數(shù)據(jù)比較復雜、維度比較多的時候。并且,由于不同的人可能會設定不同的閾值,這就導致噪聲點檢測的準確性完全依賴于閾值設定的準確性及合理性。一旦閾值設定得不合適,則會直接降低噪聲點檢測結果的準確性及可靠性。另外,這種噪聲點檢測算法的復雜度比較高。



技術實現(xiàn)要素:

為了克服相關技術中存在的問題,本公開的目的是提供一種噪聲點檢測方法及裝置。

為了實現(xiàn)上述目的,本公開提供一種噪聲點檢測方法,包括:利用聚類算法對原始數(shù)據(jù)點進行聚類,得到n個原始簇,并將每個所述原始簇的簇類型標記為第一簇類型,其中,n為大于或等于2的自然數(shù);針對每個原始簇,從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點;將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型;重復進行將距離最近的兩個簇合并為一個新簇,并對所述新簇標記簇類型的操作,直到滿足預設的合并終止條件為止,其中,當被標記為第一簇類型的簇與被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;當兩個被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第二簇類型;當兩個被標記為第一簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;在合并終止后,將歸類為第二簇類型的簇中的數(shù)據(jù)點確定為是噪聲點。

可選地,在所述將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型的步驟之前,所述方法還包括:

針對每個原始簇,確定該原始簇中的邊緣數(shù)據(jù)點總數(shù)占歸類為該原始簇的原始數(shù)據(jù)點總數(shù)的占比是否滿足預設的占比條件;

當存在不滿足所述占比條件的原始簇時,調(diào)整針對該原始簇的數(shù)據(jù)點有效條件,并重新執(zhí)行所述從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點的步驟,直到全部原始簇均滿足所述占比條件為止。

可選地,所述數(shù)據(jù)點有效條件為:數(shù)據(jù)點與所述原始簇的簇中心之間的距離小于或等于針對該原始簇預設的距離閾值,其中,所述距離閾值小于歸類為該原始簇且距離該原始簇的簇中心最遠的原始數(shù)據(jù)點到該原始簇的簇中心之間的距離。

可選地,所述合并終止條件為:任意兩個被標記為第一簇類型的簇被合并。

可選地,所述聚類算法為k-means聚類算法。

可選地,該方法還包括:從所述邊緣數(shù)據(jù)點中去除所述噪聲點;根據(jù)歸類為每個所述原始簇的剩余數(shù)據(jù)點,重新計算每個所述原始簇的簇中心。

本公開還提供一種噪聲點檢測裝置,包括:原始簇生成模塊,用于利用聚類算法對原始數(shù)據(jù)點進行聚類,得到n個原始簇,并將每個所述原始簇的簇類型標記為第一簇類型,其中,n為大于或等于2的自然數(shù);邊緣數(shù)據(jù)點確定模塊,用于針對每個原始簇,從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點;擴展簇生成模塊,用于將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型;簇合并模塊,用于重復進行將距離最近的兩個簇合并為一個新簇,并對所述新簇標記簇類型的操作,直到滿足預設的合并終止條件為止,其中,當被標記為第一簇類型的簇與被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;當兩個被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第二簇類型;當兩個被標記為第一簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;噪聲點確定模塊,用于在合并終止后,將歸類為第二簇類型的簇中的數(shù)據(jù)點確定為是噪聲點。

可選地,所述裝置還包括:

占比確定模塊,用于在所述擴展簇生成模塊將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型之前,針對每個原始簇,確定該原始簇中的邊緣數(shù)據(jù)點總數(shù)占歸類為該原始簇的原始數(shù)據(jù)點總數(shù)的占比是否滿足預設的占比條件;

數(shù)據(jù)點有效條件調(diào)整模塊,用于當存在不滿足所述占比條件的原始簇時,調(diào)整針對該原始簇的數(shù)據(jù)點有效條件,并觸發(fā)所述邊緣數(shù)據(jù)點確定模塊重新執(zhí)行所述從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點的操作,直到全部原始簇均滿足所述占比條件為止。

可選地,所述數(shù)據(jù)點有效條件為:數(shù)據(jù)點與所述原始簇的簇中心之間的距離小于或等于針對該原始簇預設的距離閾值,其中,所述距離閾值小于歸類為該原始簇且距離該原始簇的簇中心最遠的原始數(shù)據(jù)點到該原始簇的簇中心之間的距離。

可選地,所述合并終止條件為:任意兩個被標記為第一簇類型的簇被合并。

可選地,所述聚類算法為k-means聚類算法。

可選地,該裝置還包括:噪聲點去除模塊,用于從所述邊緣數(shù)據(jù)點中去除所述噪聲點;簇中心計算模塊,用于根據(jù)歸類為每個所述原始簇的剩余數(shù)據(jù)點,重新計算每個所述原始簇的簇中心。

通過上述技術方案,可以首先從初始聚類結果中,確定出可能為潛在噪聲點的邊緣數(shù)據(jù)點,之后,將這些邊緣數(shù)據(jù)點每個作為單獨的擴展簇,再與初始聚類結果中的原始簇進行簇合并操作,即,實現(xiàn)簇融合,直到滿足預設的合并終止條件為止。這樣,在簇合并操作結束之后,沒有與原始簇融合的簇中的數(shù)據(jù)點即被確認為是噪聲點。通過這一技術方案,不需要預先設定用于噪聲點確定的距離閾值,而是直接根據(jù)邊緣數(shù)據(jù)點與原始簇的融合結果即可準確判定出噪聲點,降低人為因素對噪聲點檢測的影響,并且算法的復雜度較低,能夠提高噪聲點檢測的準確率及效率。

本公開的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。

附圖說明

附圖是用來提供對本公開的進一步理解,并且構成說明書的一部分,與下面的具體實施方式一起用于解釋本公開,但并不構成對本公開的限制。在附圖中:

圖1是根據(jù)一示例性實施例示出的一種噪聲點檢測方法的流程圖。

圖2是根據(jù)一示例性實施例示出的一種聚類結果示意圖。

圖3是根據(jù)另一示例性實施例示出的一種噪聲點檢測方法的流程圖。

圖4是根據(jù)另一示例性實施例示出的一種噪聲點檢測方法的流程圖。

圖5是根據(jù)一示例性實施例示出的一種噪聲點檢測裝置的結構框圖。

圖6是根據(jù)另一示例性實施例示出的一種噪聲點檢測裝置的結構框圖。

圖7是根據(jù)另一示例性實施例示出的一種噪聲點檢測裝置的結構框圖。

具體實施方式

以下結合附圖對本公開的具體實施方式進行詳細說明。應當理解的是,此處所描述的具體實施方式僅用于說明和解釋本公開,并不用于限制本公開。

圖1是根據(jù)一示例性實施例示出的一種噪聲點檢測方法的流程圖。如圖1所示,該方法可以包括:

在步驟101中,利用聚類算法對原始數(shù)據(jù)點進行聚類,得到n個原始簇,并將每個原始簇的簇類型標記為第一簇類型,其中,n為大于或等于2的自然數(shù)。

在本公開中,可以采用本領域技術人員公知的任意聚類算法對原始數(shù)據(jù)點進行聚類。示例地,采用k-means聚類算法對原始數(shù)據(jù)點進行聚類,聚類以后能夠得到n個原始簇。例如,如圖2所示,經(jīng)過步驟101,若干個原始數(shù)據(jù)點一共被分為三類,得到三個原始簇,每個簇的簇中心分別為c1、c2和c3。這些原始簇的簇類型可以被標記為第一簇類型。

在步驟102中,針對每個原始簇,從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點。

在該步驟中,某個原始簇的邊緣數(shù)據(jù)點為歸類為該原始簇的原始數(shù)據(jù)點中不符合針對該原始簇的數(shù)據(jù)點有效條件的數(shù)據(jù)點。示例地,該數(shù)據(jù)點有效條件例如可以為:數(shù)據(jù)點與原始簇的簇中心之間的距離小于或等于針對該原始簇預設的距離閾值,其中,該距離閾值小于歸類為該原始簇且距離該原始簇的簇中心最遠的原始數(shù)據(jù)點到該原始簇的簇中心之間的距離。

例如,參考圖2,針對第一個原始簇,其簇中心為c1。該原始簇中距離簇中心c1最遠的原始數(shù)據(jù)點為d1,記d1到c1之間的距離為l1,則針對該第一個原始簇所設定的距離閾值lth1<l1。這樣,基于該lth1,可以從歸類為第一個原始簇的原始數(shù)據(jù)點中,確定出不符合與簇中心c1之間的距離小于或等于lth1這一數(shù)據(jù)點有效條件的數(shù)據(jù)點,然后將這些數(shù)據(jù)點確定為是該第一個原始簇的邊緣數(shù)據(jù)點。同理,針對第二個原始簇,其簇中心為c2。該原始簇中距離簇中心c2最遠的原始數(shù)據(jù)點為d2,記d2到c2之間的距離為l2,則針對該第二個原始簇所設定的距離閾值lth2<l2。這樣,基于該lth2,可以從歸類為第二個原始簇的原始數(shù)據(jù)點中,確定出不符合與簇中心c2之間的距離小于或等于lth2這一數(shù)據(jù)點有效條件的數(shù)據(jù)點,然后將這些數(shù)據(jù)點確定為是該第二個原始簇的邊緣數(shù)據(jù)點。針對第三個原始簇,其簇中心為c3。該原始簇中距離簇中心c3最遠的原始數(shù)據(jù)點為d3,記d3到c3之間的距離為l3,則針對該第三個原始簇所設定的距離閾值lth3<l3。這樣,基于該lth3,可以從歸類為第三個原始簇的原始數(shù)據(jù)點中,確定出不符合與簇中心c3之間的距離小于或等于lth3這一數(shù)據(jù)點有效條件的數(shù)據(jù)點,然后將這些數(shù)據(jù)點確定為是該第三個原始簇的邊緣數(shù)據(jù)點。如圖2所示,按照上述方式確定出的各原始簇的邊緣數(shù)據(jù)點如虛線圓圈所表示。

接下來,在確定出各個原始簇的邊緣數(shù)據(jù)點之后,在步驟103中,將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個擴展簇的簇類型標記為第二簇類型。例如,假設總共確定出m個邊緣數(shù)據(jù)點,則初始有m個擴展簇。這些擴展簇的簇類型可以被標記為第二簇類型。

由此可見,步驟102和步驟103的目的就是將原始簇的數(shù)據(jù)點有效范圍縮小,將離自身簇中心較遠的若干數(shù)據(jù)點作為邊緣數(shù)據(jù)點,并使各個邊緣數(shù)據(jù)點獨自成為一個簇,這里將這些簇稱為“擴展簇”。

在步驟104中,將距離最近的兩個簇合并為一個新簇,并對該新簇標記簇類型。

兩個簇之間的距離可以采用兩個簇的簇中心之間的距離來表示。示例地,兩個簇的簇中心之間的距離為兩個簇中心之間的歐氏距離。初始階段,一共有n個原始簇和m個擴展簇。首先,可以基于歐氏距離計算公式,確定出每兩個簇之間的距離。然后,將其中距離最近的兩個簇進行合并,得到一個新簇,并根據(jù)所合并的兩個簇的簇類型來對所得新簇的簇類型進行標記。示例地,當被標記為第一簇類型的簇與被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;當兩個被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第二簇類型;當兩個被標記為第一簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型。

判斷是否滿足預設的合并終止條件。如果不滿足,則返回步驟104,重復執(zhí)行上述操作,直到滿足預設的合并終止條件為止。示例地,所述合并終止條件為:任意兩個被標記為第一簇類型的簇被合并。

上述周而復始的簇合并過程,即為擴展簇和原始簇的融合過程,也就是對步驟102從原始簇中分離出來的邊緣數(shù)據(jù)點再進行聚類融合的過程。

在滿足預設的合并終止條件時,執(zhí)行步驟105。在步驟105中,在合并終止后,將歸類為第二簇類型的簇中的數(shù)據(jù)點確定為是噪聲點。

示例地,如果有任意兩個被標記為第一簇類型的簇被合并時,融合過程終止。此時,沒有與原始簇融合的數(shù)據(jù)點(其所在簇的簇類型為第二簇類型)即被視為是距離原始簇較遠的數(shù)據(jù)點,也就是噪聲點。

綜上所述,通過上述技術方案,可以首先從初始聚類結果中,確定出可能為潛在噪聲點的邊緣數(shù)據(jù)點,之后,將這些邊緣數(shù)據(jù)點每個作為單獨的擴展簇,再與初始聚類結果中的原始簇進行簇合并操作,即,實現(xiàn)簇融合,直到滿足預設的合并終止條件為止。這樣,在簇合并操作結束之后,沒有與原始簇融合的簇中的數(shù)據(jù)點即被確認為是噪聲點。通過這一技術方案,不需要預先設定用于噪聲點確定的距離閾值,而是直接根據(jù)邊緣數(shù)據(jù)點與原始簇的融合結果即可準確判定出噪聲點,降低人為因素對噪聲點檢測的影響,并且算法的復雜度較低,能夠提高噪聲點檢測的準確率及效率。

圖3是根據(jù)另一示例性實施例示出的一種噪聲點檢測方法的流程圖。如圖3所示,在圖1所示的方法的基礎上,在步驟103之前,該方法還可以包括以下步驟。

在步驟106中,針對每個原始簇,確定該原始簇中的邊緣數(shù)據(jù)點總數(shù)占歸類為該原始簇的原始數(shù)據(jù)點總數(shù)的占比是否滿足預設的占比條件。

示例地,該預設占比條件例如可以為:歸類為某個原始簇的邊緣數(shù)據(jù)點總數(shù)占歸類為該原始簇的原始數(shù)據(jù)點總數(shù)的占比不低于預設閾值,例如,該預設閾值被設置為10%。在經(jīng)過步驟102后,可以確定出每個原始簇中的邊緣數(shù)據(jù)點,進而通過步驟106,可以計算出每個原始簇中邊緣數(shù)據(jù)點總數(shù)占該原始簇中的原始數(shù)據(jù)點總數(shù)的占比,并確定該占比是否滿足預設的占比條件。

在步驟107中,判斷是否存在不滿足所述占比條件的原始簇。在判斷為是的情況下,執(zhí)行步驟108;在判斷為否的情況下,執(zhí)行步驟103。

在步驟108中,調(diào)整針對該原始簇的數(shù)據(jù)點有效條件,并重新執(zhí)行步驟102,以針對不滿足占比條件的原始簇,重新從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的、調(diào)整后的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點。上述過程循環(huán)執(zhí)行,直到全部原始簇均滿足上述的占比條件為止。

設定邊緣數(shù)據(jù)點的數(shù)量占比條件,目的是為了確保針對每個原始簇,都能將該原始簇的數(shù)據(jù)點有效范圍縮小到比較合適的范圍,同時又能夠篩選出足夠數(shù)量的邊緣數(shù)據(jù)點作為擴展簇。這樣,可以在很大程度上避免因邊緣數(shù)據(jù)點數(shù)量過少導致后期簇融合效果不佳、噪聲點檢測不準確的情況發(fā)生,進一步提高噪聲點檢測結果的準確性。

圖4是根據(jù)另一示例性實施例示出的一種噪聲點檢測方法的流程圖。如圖4所示,在圖1所示的方法的基礎上,該方法還可以包括以下步驟。

在步驟109中,從邊緣數(shù)據(jù)點中去除噪聲點。

在步驟110中,根據(jù)歸類為每個所述原始簇的剩余數(shù)據(jù)點,重新計算每個原始簇的簇中心。

在去除了噪聲點之后,可能會導致原始簇的簇中心發(fā)生變化,因此,需要重新確定每個原始簇的簇中心。重新確定每個原始簇的簇中心的目的在于:由于噪聲點的存在,使得原始得到的原始簇的簇中心存在偏移,并不十分準確。因此,當從某個原始簇中消除了噪聲點后,根據(jù)歸類為該原始簇的剩余數(shù)據(jù)點對原始簇的簇中心進行修正,可以使獲得的簇中心更為準確。另外,在基于修正后的簇中心對后續(xù)新數(shù)據(jù)點進行分類時,可以確保該新數(shù)據(jù)點的分類結果的準確性。需要說明的是,計算簇中心的方法是本領域技術人員公知的,例如,k-means算法中計算中心點的方法,因此,本公開在此不再進行贅述。

圖5是根據(jù)一示例性實施例示出的一種噪聲點檢測裝置400的結構框圖。如圖5所示,該裝置400可以包括:

原始簇生成模塊401,用于利用聚類算法對原始數(shù)據(jù)點進行聚類,得到n個原始簇,并將每個所述原始簇的簇類型標記為第一簇類型,其中,n為大于或等于2的自然數(shù);

邊緣數(shù)據(jù)點確定模塊402,用于針對每個原始簇,從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點;

擴展簇生成模塊403,用于將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型;

簇合并模塊404,用于重復進行將距離最近的兩個簇合并為一個新簇,并對所述新簇標記簇類型的操作,直到滿足預設的合并終止條件為止,其中,當被標記為第一簇類型的簇與被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;當兩個被標記為第二簇類型的簇合并時,所得新簇的簇類型被標記為第二簇類型;當兩個被標記為第一簇類型的簇合并時,所得新簇的簇類型被標記為第一簇類型;

噪聲點確定模塊405,用于在合并終止后,將歸類為第二簇類型的簇中的數(shù)據(jù)點確定為是噪聲點。

綜上所述,通過上述技術方案,可以首先從初始聚類結果中,確定出可能為潛在噪聲點的邊緣數(shù)據(jù)點,之后,將這些邊緣數(shù)據(jù)點每個作為單獨的擴展簇,再與初始聚類結果中的原始簇進行簇合并操作,即,實現(xiàn)簇融合,直到滿足預設的合并終止條件為止。這樣,在簇合并操作結束之后,沒有與原始簇融合的簇中的數(shù)據(jù)點即被確認為是噪聲點。通過這一技術方案,不需要預先設定用于噪聲點確定的距離閾值,而是直接根據(jù)邊緣數(shù)據(jù)點與原始簇的融合結果即可準確判定出噪聲點,降低人為因素對噪聲點檢測的影響,并且算法的復雜度較低,能夠提高噪聲點檢測的準確率及效率。

圖6是根據(jù)另一示例性實施例示出的一種噪聲點檢測裝置400的結構框圖。如圖6所示,該裝置400還可以包括:

占比確定模塊406,用于在所述擴展簇生成模塊403將所確定出的每個邊緣數(shù)據(jù)點各自作為擴展簇,并將每個所述擴展簇的簇類型標記為第二簇類型之前,針對每個原始簇,確定該原始簇中的邊緣數(shù)據(jù)點總數(shù)占歸類為該原始簇的原始數(shù)據(jù)點總數(shù)的占比是否滿足預設的占比條件;

數(shù)據(jù)點有效條件調(diào)整模塊407,用于當存在不滿足所述占比條件的原始簇時,調(diào)整針對該原始簇的數(shù)據(jù)點有效條件,并觸發(fā)所述邊緣數(shù)據(jù)點確定模塊402重新執(zhí)行所述從歸類為該原始簇的原始數(shù)據(jù)點中確定出不符合針對該原始簇的數(shù)據(jù)點有效條件的邊緣數(shù)據(jù)點的操作,直到全部原始簇均滿足所述占比條件為止。

圖7是根據(jù)另一示例性實施例示出的一種噪聲點檢測裝置400的結構框圖。如圖7所示,該裝置400還可以包括:

噪聲點去除模塊408,用于從所述邊緣數(shù)據(jù)點中去除所述噪聲點;

簇中心計算模塊409,用于根據(jù)歸類為每個所述原始簇的剩余數(shù)據(jù)點,重新計算每個所述原始簇的簇中心。

關于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。

以上結合附圖詳細描述了本公開的優(yōu)選實施方式,但是,本公開并不限于上述實施方式中的具體細節(jié),在本公開的技術構思范圍內(nèi),可以對本公開的技術方案進行多種簡單變型,這些簡單變型均屬于本公開的保護范圍。

另外需要說明的是,在上述具體實施方式中所描述的各個具體技術特征,在不矛盾的情況下,可以通過任何合適的方式進行組合。為了避免不必要的重復,本公開對各種可能的組合方式不再另行說明。

此外,本公開的各種不同的實施方式之間也可以進行任意組合,只要其不違背本公開的思想,其同樣應當視為本公開所公開的內(nèi)容。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1