專利名稱:聚類方法和系統(tǒng)的制作方法
技術領域:
本申請涉及數(shù)據(jù)處理領域,特別涉及一種聚類方法和系統(tǒng)。
背景技術:
在數(shù)據(jù)處理過程中,將物理或抽象對象的集合分成由類似的對象組成的多個類的 過程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對 象彼此相似,與其他簇中的對象相異。在對大數(shù)據(jù)量的可讀取文件進行識別時,往往需要對 其進行聚類計算,即是根據(jù)不同的閾值將不同的可讀取文件分成不同的類,以便獲取哪些 可讀取文件屬于同一個類別,并最終實現(xiàn)相似文檔的聚類。現(xiàn)有技術中,在對海量可讀取文件進行聚類的過程一般是這樣的首先將可讀取 文件基于不同的方法進行向量化,通過利用不同的向量相似度進行比較的結果作為聚類的 依據(jù)。所述向量化就是將一個可讀取文件(例如,word文檔)轉化成為由一系列數(shù)字組成 的向量,其中每個數(shù)字代表不同的特征所對應的特征值。不同的可讀取文件所對應的向量 是不同的。在根據(jù)向量相似度進行聚類時,一般采用逐一比較的方法,例如,當有一百個可 讀取文件需要進行聚類時,其中每一個可讀取文件都需要和其他99個可讀取文件計算向 量相似度,這樣才可以根據(jù)向量相似度的值進行聚類。從上述過程中可以看出,現(xiàn)有技術值的聚類方法需要計算每個可讀取文件的向量 相似度,基于這個向量相似度才可以進行聚類分析,當可讀取文件的數(shù)據(jù)量很大時,這種重 復計算往往會增加計算過程的時間,嚴重降低性能,即是在進行聚類分析之前的計算所占 用的系統(tǒng)資源幾乎超過了聚類分析過程??傊壳靶枰绢I域技術人員迫切解決的一個技術問題就是如何能夠創(chuàng)新的 提出一種聚類方法,以解決現(xiàn)有技術中每一個可讀取文件都需要和其他文件計算向量相似 度才能進行聚類導致的計算時間增加,聚類運算的性能降低的問題。
發(fā)明內容
本申請所要解決的技術問題是提供一種聚類方法,用以解決現(xiàn)有技術中每一個可 讀取文件都需要和其他文件計算向量相似度才能進行聚類導致的計算時間增加,聚類運算 的性能降低的問題。本申請還提供了一種聚類系統(tǒng),用以保證上述方法在實際中的實現(xiàn)及應用。為了解決上述問題,本申請公開了一種聚類方法,包括對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量;根據(jù)所述多個文件向量提取所述多個可讀取文件的總特征向量;根據(jù)所述總特征向量和各個文件向量之間相似度的排序結果,對所述多個可讀取 文件進行聚類。本申請還提供了一種聚類系統(tǒng),該系統(tǒng)包括向量化單元,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的多5個文件向量;提取單元,根據(jù)所述多個文件向量提取所述多個可讀取文件的總特征向量;聚類單元,根據(jù)所述總特征向量和各個文件向量之間相似度的排序結果,對所述 多個可讀取文件進行聚類。本申請還公開了一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方法,該方法包括從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁;對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng)頁對應的多個網(wǎng)頁向量;根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向量;根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待 聚類網(wǎng)頁進行聚類。本申請還公開了一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的系統(tǒng),該系統(tǒng)包括獲取單元,從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁;網(wǎng)頁聚類裝置,用于對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng)頁對 應的多個網(wǎng)頁向量;根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向量; 根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待聚類網(wǎng)頁 進行聚類。與現(xiàn)有技術相比,本申請包括以下優(yōu)點在本申請中,首先對當前的多個可讀取文件進行向量化,可以得到多個可讀取文 件對應的多個文件向量;根據(jù)所述多個文件向量提取所述多個可讀取文件共同的總特征向 量,然后再根據(jù)所述總特征向量和各個文件向量之間的相似度對所述多個可讀取文件進行 聚類。在本申請的實施例中,采用每一個文件向量與總特征向量的相似度作為聚類的依據(jù), 無需像現(xiàn)有技術一樣對需要聚類的可讀取文件兩兩之間都計算相似度,從而減少了文件向 量之間的相似度的比較次數(shù),進一步可以減少系統(tǒng)資源的負擔,例如CPU和內存的使用量, 降低了聚類的運行時間,提高了聚類方法的運算性能。當然,實施本申請的任一產品并不一 定需要同時達到以上所述的所有優(yōu)點。
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于 本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。圖1是本申請的一種聚類方法實施例1的流程圖;圖2是本申請中一種聚類方法實施例2的流程圖;圖3是本申請的一種聚類方法實施例3的流程圖;圖4是本申請的一種聚類系統(tǒng)實施例1的結構框圖;圖5是本申請的一種聚類系統(tǒng)實施例2的結構框圖;圖6是本申請的一種聚類系統(tǒng)實施例3的結構框圖;圖7是本申請的對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方法一種實施例的流程圖;圖8是本申請的對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方法另一種實施例中的步驟流程圖9是本申請的對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的一種系統(tǒng)實施例的結構示意圖;圖10是本申請的對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的另一種系統(tǒng)實施例的結構示意圖。
具體實施例方式下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;?本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本申請保護的范圍。本申請可用于眾多通用或專用的計算系統(tǒng)環(huán)境或配置中。例如個人計算機、服務 器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)、包括以上任何系統(tǒng)或設備 的分布式計算環(huán)境等等。本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序 模塊。一般地,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組 件、數(shù)據(jù)結構等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由 通過通信網(wǎng)絡而被連接的遠程處理設備來執(zhí)行任務。在分布式計算環(huán)境中,程序模塊可以 位于包括存儲設備在內的本地和遠程計算機存儲介質中。本申請的主要思想之一可以包括,對于當前需要進行聚類的可讀取文件來說,首 先將其向量化,得到對應的多個文件向量,然后再針對這多個文件向量提取共同的特征,組 成一個特征向量,并根據(jù)所述特征向量與每個文件向量之間的相似度來進行可讀取文件的 聚類。就能夠避免了現(xiàn)有技術中每兩個文件向量之間都需要進行相似度的計算的操作,就 根據(jù)構造出的特征向量實現(xiàn)可讀取文件的聚類,從而在減少相似度比較次數(shù)的基礎上,能 夠提升聚類的性能。參考圖1,示出了本申請一種聚類方法實施例1的流程圖,可以包括以下步驟步驟101 對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量。在本實施例中,所述可讀取文件可以是轉化為向量的各種格式的文件,例如,Word 文檔、Excel表格等等;首先對當前需要進行聚類的多個可讀取文件進行向量化,將該多個 可讀取文件轉換為對應的多個文件向量。所述向量化就是將一個可讀取文件轉化成為由一 系列數(shù)字組成的向量,其中每個數(shù)字代表不同的特征所對應的值,可讀取文件的特征選取 有很多種方法,最典型的方法就是采用TF_IDF的方法對文檔進行特征值提取,當然還可以 采用其他方式,例如信息增益(IG)、互信息(MI)以及熵的方法等。最后組合提取到的特 征值生成一組數(shù)字組成的向量。不同的可讀取文件所對應的向量是不同的。本申請中的文 件向量即是向量的意思,稱為文件向量是為了和后續(xù)出現(xiàn)的特征向量進行區(qū)分。步驟102 根據(jù)所述多個文件向量提取所述多個可讀取文件的總特征向量。本申請中在獲取多個可讀取文件的多個文件向量之后,需要根據(jù)這多個文件向量 提取這多個可讀取文件的總特征向量,總特征向量即是包括了所有可讀取文件的特征的特 征向量。在實際應用中,構造特征向量時可將所有可讀取文件的向量的特征都進行提取,然 后再生成一個含有所有可讀取文件的特征的向量作為特征向量,可以通過將所有可讀取文 件的特征值都進行求和,將求得的和作為特征向量的特征值的方法來實現(xiàn)。所述可讀取文件的特征可以理解為可讀取文件中的可接受的最小單位,例如一個詞或是一組數(shù)字等,具 體的特征根據(jù)特征選取算法的不同會有所不同。在本步驟中構造出的特征向量可以保證每 個文件向量與特征向量進行計算時相似度的值都不會為零,后續(xù)保證可以將相似的文件向 量能夠順序排列。步驟103 根據(jù)所述總特征向量和各個文件向量之間相似度的排序結果,對所述 多個可讀取文件進行聚類。計算所述總特征向量和各個文件向量之間的相似度,對所述多個可讀取文件進行 聚類,具體的,可以按照計算出的多個相似度對可讀取文件進行排序,然后將相鄰的若干個 可讀取文件根據(jù)實際情況或需求進行聚類。在本實施例中,可以采用逐次比較的方式,即 是每一個文件向量都只要與自己相鄰的上一個位置的向量進行相似度比較就可以了,在預 設閾值的時候,可以將閾值設置為0. 99,即是兩個文件相鄰之間的相似度大于或等于0. 99 時,則將該兩個文件向量聚為一類,否則,則生成一個新的類,最終對所有的可讀取文件對 應的多個向量都舉行了聚類。其中,所述向量相似度比較可以基于數(shù)學上不同的向量相似 度計算公式,不同的公式可以得出不同的相似度的計算方法。需要說明的是,對于本實施例中的聚類方法的實現(xiàn),可以采用類中心迭代計算的 方法,例如K-均值聚類算法等,或是高維向低維映射的算法,例如投影尋蹤,自組織特征映 射算法等。對于本發(fā)明給出的實例的聚類問題,采用以上兩種方法都可以滿足要求。在本實施例中,在進行聚類之前,首先是結合所有可讀取文件的多個文件向量共 同構造一個特征向量,該總特征向量為能夠包括所有的特征的向量,因此,這樣在計算出每 一個文件向量與該總特征向量的相似度之后,按照相似度對多個可讀取文件進行排序,再 按照逐次比較的原則,根據(jù)相鄰的兩個文件向量計算出的向量相似度來進行聚類,可以看 出,采用每個文件向量只與臨近的文件向量進行比較,從而減少了文件向量之間的相似度 的比較次數(shù),從而可以減少系統(tǒng)資源的負擔,例如CPU和內存的使用量,降低了運行時間, 提高了運算性能。參考圖2,示出了本申請一種聚類方法實施例2的流程圖,本實施例可以理解為將 本申請的聚類方法應用于實際中的一個具體例子,可以包括以下步驟步驟201 對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量。在本實施例中,以實際中的一個具體例子來進行詳細介紹。假設有10個可讀取文 本,每個可讀取文件含有特征的總數(shù)為4個,則每個可讀取文本被向量化后的結果如下第 一個可讀取文本的文件向量1為(0. 2,0,1,1),第二個可讀取文本的文件向量2為(0. 3, 0.2,0,1),第三個可讀取文本的文件向量3為(0. 1,0. 1,0. 1,0. 2),第四個可讀取文本的 文件向量4為(0,0,0. 6,0. 7),第五個可讀取文本的文件向量5為(1,2,3,4),第六個可 讀取文本的文件向量6為(0. 3,0,0. 9,0. 9),第七個可讀取文本的文件向量7為(0. 4, 0. 1,0,0. 9),第八個可讀取文本的文件向量8為:(0.2,0. 1,0.2,0. 1),第九個可讀取文本 的文件向量9為(0,0,0. 5,0. 6),第十個可讀取文本的文件向量10為(0. 3,0,0. 9,1)。步驟202 將所述多個文件向量共同的特征的特征值依次相加求和,得到所述總 特征向量相應的特征值。對于該10個可讀取文件的10個文件向量的每個特征,分別對10個可讀取文件對8應的10個文件向量求和,即是將10個文件向量的第一個特征對應的特征值的總和作為特 征向量的第一個特征值,依次類推,在本例子中得到的特征向量為(2. 8,2. 5,7. 2,10. 4)。步驟203 分別計算所述多個文件向量與總特征向量的第一相似度。在實際應用中,可以采用向量余弦夾角公式計算所述向量的第一相似度。分別 計算每個向量與特征向量的相似度值,采用的是向量余弦夾角的方法來判斷相似度,計算 所得的相似度如下第一個可讀取文本的文件向量1與總特征向量的第一相似度1為 0. 963638,第二個可讀取文本的文件向量2與總特征向量的第一相似度2為0. 837032,第 三個可讀取文本的文件向量3與總特征向量的第一相似度3為0. 953912,第四個可讀取 文本的文件向量4與總特征向量的第一相似度4為0. 95359,第五個可讀取文本的文件向 量5與總特征向量的第一相似度5為0. 98M51,第六個可讀取文本的文件向量6與總特征 向量的第一相似度6為0. 966743,第七個可讀取文本的文件向量7與總特征向量的第一 相似度7為0. 821485,第八個可讀取文本的文件向量8與總特征向量的第一相似度8為 0. 788513,第九個可讀取文本的文件向量9與總特征向量的第一相似度9為0. 954868,第 十個可讀取文本的文件向量10與總特征向量的第一相似度10為0. 974316。步驟204 按照所述第一相似度對所述多個文件向量進行第一次排序。將本例子中10個文件向量按照第一相似度的值從大到小排序,結果如下文件 向量5,10,6,1,9,3,4,2,7,8。對應的具體文件向量的內容如下(1,2,3,4),(0. 3,0,0.9, 1),(0. 3,0,0. 9,0. 9),(0. 2,0,1,1),(0,0,0. 5,0. 6), (0. 1,0. 1,0. 1,0. 2), (0,0,0. 6,0. 7), (0. 3,0. 2,0,1),(0. 4,0. 1,0,0. 9), (0. 2,0. 1,0. 2,0. 1)??梢钥闯觯宋募蛄?0,0,0.5,0.6), (0. 1,0. 1,0. 1,0. 2)和(0,0,0. 6,0. 7)沒有成片連接以外,其它的文件向量都已經實現(xiàn)了相似的成片連接,例如(0. 3,0,0. 9,1) 和(0.3,0,0.9,0. 9)的向量相似度為 0.998614,文件向量(0.3,0,0.9,0. 9)和(0. 2,0,1, 1)的向量相似度為0.995863,但文件向量(0,0,0.5,0.6)和(0,0,0. 6,0. 7)的向量相似度 為0. 999904,卻沒有排列在一起。因此,在本例子中,還需要著增加后續(xù)的排序步驟,以便獲 取精確的計算結果。步驟205 分別計算所述多個文件向量與第一次排序后的最后一個文件向量的第二相似度。在實際應用中,可以在計算第二相似度之前首先對第一相似度的值做精度處理, 只保留小數(shù)點后兩位,則得到結果如下第一個可讀取文本的文件向量1與總特征向量的 第一相似度1約為0. 96,文件向量2的第一相似度2約為0. 83,文件向量3的第一相似 度3約為0. 95,文件向量4的第一相似度4約為0. 95,文件向量5的第一相似度5約為 0. 98,文件向量6的第一相似度6約為0. 96,文件向量7的第一相似度7約為0. 82,文件 向量7的第一相似度7約為0. 78,文件向量7的第一相似度7約為0. 95,文件向量7的第 一相似度7約為0. 97。此處,獲取第一次排序最末位置的文件向量8,每個文件向量都與其計算第二相 似度。文件向量9、3和4的第一相似度相同都為0.95,這三個文件向量分別是(0,0,0.5, 0.6),(0. 1,0. 1,0. 1,0. 2)和(0,0,0.6,0.7),計算得到的以上三個向量的第二相似度值分 別為0. 647821,0. 83666,0. 651695。步驟206 在第一次排序的基礎上,再按照第二相似度對所述第一次排序后的文件向量進行第二次排序。在第一相似度進行精度處理之后的值相等的前提下,按照第二相似度對相應的文 件向量從大到小排序。例如,文件向量9,3和4的第一相似度相同,按照第二相似度從大到 小排序后,得到的順序如下3,9,4。即(0. 1,0. 1,0. 1,0. 2),(0,0,0.5,0. 6)和(0,0,0. 6, 0. 7)。這樣就實現(xiàn)了,9和4這兩個向量能夠成片連接,按照第二相似度排序后的總結果如 下5,10,6,1,3,9,4,2,7,8ο步驟207 從第二次排序之后的第二個文件向量開始,逐次與當前文件向量的上 一個文件向量進行比較。在實際應用中,根據(jù)閾值的不同,比較的結果可以有所不同,在實際應用中,閾值 的取值范圍一般在0 1之間,取值越接近1,則聚類的結果越精確。例如,本例子中將閾值 設置為0. 98。步驟208 當比較結果滿足聚類條件時,則將所述當前文件向量和其上一個文件向量聚為一類。在本例子中,例如(0.3,0,0.9,1),(0.3,0,0.9,0. 9), (0. 2,0,1,1)聚為一類。步驟209 當比較結果不滿足聚類條件時,則生成新的類。當比較到文件向量(0,0,0.5,0.6)時,因為比較結果不滿足聚類條件,即是不大 于或等于預先設置的閾值,則生成一個新的類,即是文件向量(0,0,0.5,0.6)屬于另外一 個類。根據(jù)本實施例中設置的閾值0.99,聚類結果共為6類,分別為(1,2,3,4)(0. 3,0,0· 9,1),(0. 3,0,0. 9,0. 9), (0. 2,0,1,1)(0,0,0. 5,0. 6), (0,0,0. 6,0. 7)(0. 1,0. 1,0. 1,0. 2)(0. 3,0. 2,0,1),(0. 4,0. 1,0,0. 9)(0. 2,0. 1,0. 2,0. 1)在本實施例中,采用構造總特征向量的方式,完成了向量相似度相近的文件向量 能夠相鄰的成片連接,這樣在對可讀取文件進行聚類時,文件向量之間的比較次數(shù)會大幅 度減少,就在保證聚類結果的質量的同時提高了聚類的性能。參考圖3,示出了本申請一種聚類方法實施例3的流程圖,可以包括以下步驟步驟301 對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量。步驟302 將所述多個文件向量共同的特征的特征值依次相加求和,得到總總特 征向量相應的特征值。步驟303 根據(jù)所述總總特征向量和各個文件向量之間的相似度對所述多個可讀 取文件進行聚類。其中,所述步驟303具體可以采用以下步驟來實現(xiàn)步驟Al 分別計算所述多個文件向量與總特征向量的第一相似度。其中,步驟Al中計算相似度的方式可以采用向量余弦夾角公式進行計算。步驟Α2 按照所述第一相似度對所述多個文件向量進行第一次排序。步驟A3 分別計算所述多個文件向量與第一次排序后的最后一個文件向量的第10二相似度。步驟A4 在第一次排序的基礎上,再按照第二相似度對所述第一次排序后的文件 向量進行第二次排序。步驟A5 按照第二次排序之后的文件向量對所述多個可讀取文件進行聚類。其中,步驟A5在實際中可以采用如下方式實現(xiàn)子步驟al 從第二次排序之后的第二個文件向量開始,逐次向當前文件向量的上 一個文件向量進行比較。子步驟a2:當比較結果滿足聚類條件時,則將所述當前文件向量和其上一個文件向量聚為一類。子步驟a3 當比較結果不滿足聚類條件時,則生成新的類。步驟304 根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量。在實際應用中,在實施例2中獲得的結果,有時不能適應于要求精度更高的場景, 則在按照本申請實施例2中的方式獲取到聚類結果,再對每一個類獲取到該類的代表向 量,所述代表向量可以是每一類中所有的文件向量的中心向量,代表向量的個數(shù)步驟304 中的類的個數(shù)相同。步驟305 構造滿足預置條件的新特征向量。所述新特征向量與總特征向量不能相同,在本實施例中所述新特征向量的構造方 法可以根據(jù)不同的應用場景有所不同。但是,所述新特征向量,需要滿足以下標準計算每 一個代表向量與新特征向量的相似度的值,最終能夠使按照該相似度從大到小排序后的文 件向量,能夠保證相似或相近的文件向量成片相連。步驟306 分別計算所述代表向量與新特征向量的第三相似度。在本實施例中,則是計算每個類的代表向量于所述新特征向量的第三相似度的 值。步驟307 按照所述第三相似度對所述可讀取文件的各個類進行第一次排序。在本實施例之后是按照所述第三相似度對步驟304中聚類之后的每一類進行排序。步驟308 分別計算所述每一類的代表向量與第一次排序后的最后一個類的代表 向量的第四相似度。與實施例2類似,在本實施例之后,再繼續(xù)計算每一類的代表向量于排序之后的 最后一個類的代表向量的第四相似度。步驟309 在第一次排序的基礎上,再按照第四相似度對所述第一次排序后的代 表向量進行第二次排序。重新排序的操作,例如,對于第三相似度相同的代表向量,本應成片連接的代表向 量在第一次排序之后并沒有相鄰,則重新按照第四相似度對第三相似度相等的代表向量進 行第二次排序。步驟310 按照第二次排序之后的代表向量對所述多個可讀取文件的類重新進行聚類。在本實施例中,所述方法還可以包括步驟311 判斷是否滿足迭代結束條件,如果是,則結束流程,如果否,則重新執(zhí)行11所述根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量的步驟。其中,所述迭代結束條件一般可以設為,達到一定迭代步數(shù)或聚類結果數(shù)目達到 要求的數(shù)目等。當滿足迭代條件時,則結束當前流程,如果不滿足迭代條件,則重新執(zhí)行所 述步驟304。需要說明的是,對于按照方法實施例中進行聚類時,每一個實施例中可以構造出 的特征向量在不同的實施過程中可以是不相同的,只要滿足構造特征向量的標準,可以按 照不同的需求構造不同場境下不相同的特征向量。在本實施例中,第二次迭代聚類中特征 向量的選取個數(shù)根據(jù)不同的需求也可以不一樣,但需滿足構造特征向量的標準。在本申請 實施例2和3中,所述總特征向量和新特征向量給出了不同的構造標準,本實施例采用迭代 的方法,可以提高聚類的質量。對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但 是本領域技術人員應該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某 些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描 述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本申請所必須的。與上述本申請一種聚類方法實施例1所提供的方法相對應,參見圖4,本申請還提 供了一種聚類系統(tǒng)實施例1,在本實施例中,該系統(tǒng)可以包括向量化單元401,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的 多個文件向量。在本實施例中,所述可讀取文件可以是轉化為向量的各種格式的文件,例如,Word 文檔、Excel表格等等;首先對當前需要進行聚類的多個可讀取文件進行向量化,將該多個 可讀取文件轉換為對應的多個文件向量。所述向量化就是將一個可讀取文件轉化成為由一 系列數(shù)字組成的向量,其中每個數(shù)字代表不同的特征所對應的值。不同的可讀取文件所對 應的向量是不同的。本申請中的文件向量即是向量的意思,稱為文件向量是為了和后續(xù)出 現(xiàn)的特征向量進行區(qū)分。提取單元402,根據(jù)所述多個文件向量提取所述多個可讀取文件共同的總特征向量。本申請中在獲取多個可讀取文件的多個文件向量之后,需要根據(jù)這多個文件向量 提取這多個可讀取文件共同的總特征向量。在實際應用中,構造特征向量時可將所有可讀 取文件的向量的特征都進行提取,然后再生成一個含有所有可讀取文件的特征的向量做為 特征向量,可以通過將所有可讀取文件的特征值都進行求和,將求得的和作為特征向量的 特征值的方法來實現(xiàn)。所述可讀取文件的特征可以理解為可讀取文件中的可接受文件的最 小單位,例如一個詞或是一組數(shù)字等,具體的特征根據(jù)特征選取算法的不同會有所不同。在 本步驟中構造出的特征向量可以保證每個文件向量與特征向量進行計算時相似度的值都 不會為零,后續(xù)保證可以將相似的文件向量能夠順序排列。聚類單元403,根據(jù)所述總特征向量和各個文件向量之間的相似度對所述多個可 讀取文件進行聚類。計算所述總特征向量和各個文件向量之間的相似度,對所述多個可讀取文件進行 聚類。在本實施例中,可以采用逐次比較的方式,即是每一個文件向量都只要與自己相鄰的 上一個位置的向量進行相似度比較就可以了,在預設閾值的時候,可以將閾值設置為0. 99,12即是兩個文件相鄰之間的相似度大于或等于0. 99時,則將該兩個文件向量聚為一類,否 則,則生成一個新的類,最終對所有的可讀取文件對應的多個向量都舉行了聚類。其中,所 述向量相似度比較可以基于數(shù)學上不同的向量相似度計算公式,不同的公式可以得出不同 的相似度計算方法。在本實施例中,在進行聚類之前,首先是提取單元402可以結合所有可讀取文件 的多個文件向量共同構造一個特征向量,能夠包括所有的向量的特征,因此,這樣在計算出 相似度之后,再按照逐次比較的原則,根據(jù)相鄰的兩個文件向量計算出的向量相似度來進 行聚類,可以看出,采用每個文件向量只與臨近的文件向量進行比較,從而減少了文件向量 之間的相似度的比較次數(shù),從而可以減少系統(tǒng)資源的負擔,例如CPU和內存的使用量,降低 了運行時間,提高了運算性能。與上述本申請一種聚類方法實施例2所提供的方法相對應,參見圖5,本申請還提 供了一種聚類系統(tǒng)的優(yōu)選實施例2,在本實施例中,該系統(tǒng)具體可以包括向量化單元401,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的 多個文件向量。提取單元402,具體用于將所述多個文件向量共同的特征的特征值依次相加求和, 得到所述總特征向量相應的特征值。第一計算單元501,用于分別計算所述多個文件向量與總特征向量的第一相似度。第一排序單元502,用于按照所述第一相似度對所述多個文件向量進行第一次排序。第二計算單元503,用于分別計算所述多個文件向量與第一次排序后的最后一個 文件向量的第二相似度。第二排序單元504,用于在第一次排序的基礎上,再按照第二相似度對所述第一次 排序后的文件向量進行第二次排序。在本實施例中,第二聚類單元,可以用于按照第二次排序之后的文件向量對所述 多個可讀取文件進行聚類。所述第二聚類單元可以包括比較子單元505、聚類子單元506 和生成子單元507。比較子單元505,用于從第二次排序之后的第二個文件向量開始,逐次向當前文件 向量的上一個文件向量進行比較。聚類子單元506,用于當比較結果滿足聚類條件時,則將所述當前文件向量和其上 一個文件向量聚為一類。生成子單元507,用于當比較結果不滿足聚類條件時,則生成新的類。本實施例中,采用構造總特征向量的方式,完成了向量相似度相近的文件向量能 夠相鄰的成片連接,這樣在對可讀取文件進行聚類時,文件向量之間的比較次數(shù)會大幅度 減少,就在保證聚類結果的質量的同時提高了聚類的性能。與上述本申請一種聚類方法實施例3所提供的方法相對應,參見圖5,本申請還提 供了一種聚類系統(tǒng)的優(yōu)選實施例3,在本實施例中,該系統(tǒng)具體可以包括向量化單元401,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的 多個文件向量;提取單元402,具體用于將所述多個文件向量共同的特征的特征值依次相加求和,得到所述總特征向量相應的特征值。第一計算單元501,用于分別計算所述多個文件向量與總特征向量的第一相似度。第一排序單元502,用于按照所述第一相似度對所述多個文件向量進行第一次排序。第二計算單元503,用于分別計算所述多個文件向量與第一次排序后的最后一個 文件向量的第二相似度。第二排序單元504,用于在第一次排序的基礎上,再按照第二相似度對所述第一次 排序后的文件向量進行第二次排序。第二聚類單元601,用于按照第二次排序之后的文件向量對所述多個可讀取文件 進行聚類。獲取單元602,用于根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量。構造單元603,用于構造滿足預置條件的新特征向量。第三計算單元604,用于分別計算所述代表向量與新特征向量的第三相似度。第三排序單元605,用于按照所述第三相似度對所述可讀取文件的各個類進行第 一次排序。第四計算單元606,用于分別計算所述每一類的代表向量與第一次排序后的最后 一個類的代表向量的第四相似度。第四排序單元607,用于在第一次排序的基礎上,再按照第四相似度對所述第一次 排序后的代表向量進行第二次排序。第三聚類單元608,用于按照第二次排序之后的代表向量對所述多個可讀取文件 的類重新進行聚類。判斷單元609,用于判斷是否滿足迭代結束條件,如果是,則結束流程,如果否,則 重新執(zhí)行所述根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量的步驟。參考圖7所示,在本發(fā)明方法實施例中,提供了一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方 法實施例,可以包括如下步驟步驟701 從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁。在互聯(lián)網(wǎng)領域,也可以應用本申請中前述實施例的聚類方法。例如門戶類網(wǎng)站的 類目編輯,或者搜索引擎服務器對網(wǎng)絡蜘蛛爬取的網(wǎng)頁結果進行聚類等。以搜索引擎服務 器系統(tǒng)的網(wǎng)絡蜘蛛為例來進行介紹,首先網(wǎng)絡蜘蛛可以從互聯(lián)網(wǎng)絡上爬取得到一定數(shù)目的 網(wǎng)頁,該一定數(shù)目的網(wǎng)頁可以根據(jù)實際情況在數(shù)量和內容上有所不同,該一定數(shù)目的網(wǎng)頁 即是待聚類網(wǎng)頁。步驟702 對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng)頁對應的多個 網(wǎng)頁向量。其中,所述待聚類網(wǎng)頁相當于可讀取文件,此時,對所述待聚類網(wǎng)頁過文本解析將 各個網(wǎng)頁轉化成向量模式,優(yōu)選的,可以通過TF-IDF的方法進行轉化。步驟703 根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向量。 步驟704 根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間的相似度對所述多個待聚類網(wǎng)頁 進行聚類。其中,步驟703和704即是前述實施例中對可讀取文件進行聚類的實現(xiàn)過程,在本14實施例中,操作對象具體為待聚類網(wǎng)頁。在本實施例中,對待聚類網(wǎng)頁進行聚類的粗細程度 取決于閾值的選取,同時,在不同的應用場景下可以通過實驗設置或計算相適應的聚類閾值。步驟705 依據(jù)所述對多個待聚類網(wǎng)頁的聚類結果,建立類目索引,所述類目索引 用于標識一類網(wǎng)頁。在步驟704對待聚類網(wǎng)頁進行聚類之后,根據(jù)前述實施例的描述可以得知,每一 類待聚類網(wǎng)頁對應的網(wǎng)頁向量中都有一個中心向量,則該中心向量對應的網(wǎng)頁為該類網(wǎng)頁 中的中心網(wǎng)頁,通過對中心網(wǎng)頁進行分析可以確定該中心網(wǎng)頁的特性,從而得知該中心網(wǎng) 頁所屬類的特性,進而可以根據(jù)特性定義該類網(wǎng)頁所屬的具體類目,并分類目建立類目索 弓I,所述類目索引可以唯一標識一類網(wǎng)頁。步驟706 當接收到當前用戶輸入的檢索詞時,依據(jù)類目索引在某一類網(wǎng)頁中進 行檢索。搜索引擎接收到用戶輸入的檢索詞時,可以根據(jù)該檢索詞所屬的類目和類目索引 匹配到相關類目,然后就可以只在該類目下進行檢索,或只與相關類目的內容進行檢索,這 樣就在搜索引擎服務器端減少了搜索引擎的計算量,同時也提高了檢索速度,能夠優(yōu)化搜 索引擎服務器的性能,進一步的,還能提升用戶的搜索引擎使用體驗。在本發(fā)明的另一個實施例中,參考圖8所示,在所述步驟704之后,還可以包括以 下步驟步驟801 分別從各類網(wǎng)頁中選取一個中心網(wǎng)頁,并建立各類中其他網(wǎng)頁分別與 各個中心網(wǎng)頁的關聯(lián)。在本實施例中,則是將已經進行了聚類的網(wǎng)頁,按照聚類結果,從每一類網(wǎng)頁中都 選取出一個中心網(wǎng)頁。因為每一類待聚類網(wǎng)頁對應的網(wǎng)頁向量中都有一個中心向量,則該 中心向量對應的網(wǎng)頁為該類網(wǎng)頁中的中心網(wǎng)頁,因此,選取出中心網(wǎng)頁之后,可以在每一類 網(wǎng)頁中,將除了該中心網(wǎng)頁之外的其他網(wǎng)頁,都分別建立起與當前類的中心網(wǎng)頁的關聯(lián)。其 中,該關聯(lián)可以理解為,當點擊所述中心網(wǎng)頁的時候,在打開中心網(wǎng)頁的同時,也會顯示所 述中心網(wǎng)頁所屬類的其他網(wǎng)頁信息的默認關系。當然,其中,關聯(lián)方式和顯示本類中其他網(wǎng) 頁信息的實現(xiàn),本領域技術人員可以根據(jù)用戶需求和應用場景自主設置,本申請對此不做 限定。在展現(xiàn)的時候并不將相似的網(wǎng)頁去除,而是將相似的網(wǎng)頁進行合并,通過代表網(wǎng)頁 進行鏈接,當需要看具體網(wǎng)頁信息時,可以通過鏈接口進入相似網(wǎng)頁界面,查看結果。步驟 802 當接收到用戶輸入的檢索詞時,向用戶返回各類的代表網(wǎng)頁。在搜索引擎服務器端, 當接收到用戶輸入的檢索詞時,則根據(jù)檢索詞所述類目只將對應的中心網(wǎng)頁返回給用戶, 還可以進一步的,在每個中心網(wǎng)頁掛上到該類中其他網(wǎng)頁的鏈接。在本實施例中,對于步驟 704中進行聚類時的閾值的選取可以由實際應用決定,對于不同的應用可以采取不同的閾 值。但是對網(wǎng)頁進行聚類以及相似度判斷時,一般可以采取高閾值,因為網(wǎng)頁的格式變化偏 多,所以在判斷網(wǎng)頁是否相似時往往會選取某些重點屬性,但重點屬性有時不能代表網(wǎng)頁 的全部特性,所以選取閾值時應偏向于0. 9或0. 9以上的閾值。參考圖9所示,為本申請中一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的系統(tǒng)實施例的結構示意 圖,該系統(tǒng)可以包括獲取單元901,從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁。15
網(wǎng)頁聚類裝置902,用于對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng) 頁對應的多個網(wǎng)頁向量;根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向 量;根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待聚類 網(wǎng)頁進行聚類。建立索引單元903,用于依據(jù)所述對多個待聚類網(wǎng)頁的聚類結果,建立類目索引, 所述類目索引用于標識一類網(wǎng)頁。檢索單元904,用于當接收到當前用戶輸入的檢索詞時, 依據(jù)類目索引在某一類網(wǎng)頁中進行檢索。同時,參考圖10所示,為本申請的對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的系統(tǒng)實施例的結構示 意圖,該系統(tǒng)可以包括獲取單元901,從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁。網(wǎng)頁聚類裝置902,用于對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng) 頁對應的多個網(wǎng)頁向量;根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向 量;根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待聚類 網(wǎng)頁進行聚類。選取單元1001,用于分別從各類網(wǎng)頁中選取一個代表網(wǎng)頁,并建立各類中其他網(wǎng) 頁分別與各個代表網(wǎng)頁的關聯(lián)。返回單元1002,用于當接收到用戶輸入的檢索詞時,向用戶返回各類的代表網(wǎng)頁。需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重 點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。 對于系統(tǒng)類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參 見方法實施例的部分說明即可。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將 一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作 之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體 意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括 那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。以上對本申請所提供的一種聚類方法和系統(tǒng)進行了詳細介紹,本文中應用了具體 個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請 的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本申請的思想,在具體實施 方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
權利要求
1.一種聚類方法,其特征在于,該方法包括對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量; 根據(jù)所述多個文件向量提取所述多個可讀取文件的總特征向量; 根據(jù)所述總特征向量和各個文件向量之間相似度的排序結果,對所述多個可讀取文件 進行聚類。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述多個文件向量提取所述多 個可讀取文件的總特征向量,具體包括將所述多個文件向量對應特征的特征值分別相加求和,得到所述總特征向量相應的特 征值。
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述特征向量和各個向量之間 相似度的排序結果,對所述多個可讀取文件進行聚類,具體包括分別計算所述多個文件向量與總特征向量的第一相似度; 按照所述第一相似度對所述多個文件向量進行第一次排序; 分別計算所述多個文件向量與第一次排序后的最后一個文件向量的第二相似度; 在第一次排序的基礎上,再按照第二相似度對所述第一次排序后的文件向量進行第二 次排序;按照第二次排序之后的文件向量對所述多個可讀取文件進行聚類。
4.根據(jù)權利要求3所述的方法,其特征在于,所述按照第二次排序之后的文件向量對 所述多個可讀取文件進行聚類,具體包括從第二次排序之后的第二個文件向量開始,逐次與當前文件向量的上一個文件向量進 行比較;當比較結果滿足聚類條件時,則將所述當前文件向量和其上一個文件向量聚為一類; 當比較結果不滿足聚類條件時,則生成新的類。
5.根據(jù)權利要求3所述的方法,其特征在于,所述計算相似度的方式采用向量余弦夾 角公式進行計算。
6.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述總特征向量和各個文件向 量之間相似度的排序結果,對所述多個可讀取文件進行聚類之后,還包括根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量; 構造滿足預置條件的新特征向量; 分別計算所述代表向量與新特征向量的第三相似度; 按照所述第三相似度對所述可讀取文件的各個類進行第一次排序; 分別計算所述每一類的代表向量與第一次排序后的最后一個類的代表向量的第四相 似度;在第一次排序的基礎上,再按照第四相似度對所述第一次排序后的代表向量進行第二 次排序;按照第二次排序之后的代表向量對所述多個可讀取文件的類重新進行聚類。
7.根據(jù)權利要求6所述的方法,其特征在于,所述按照第二次排序之后的代表向量對 所述多個可讀取文件的類重新進行聚類之后,還包括判斷是否滿足迭代結束條件,如果是,則結束流程,如果否,則重新執(zhí)行所述根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量的步驟。
8.一種聚類系統(tǒng),其特征在于,該系統(tǒng)包括向量化單元,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文 件向量;提取單元,根據(jù)所述多個文件向量提取所述多個可讀取文件的總特征向量; 聚類單元,根據(jù)所述總特征向量和各個文件向量之間相似度的排序結果,對所述多個 可讀取文件進行聚類。
9.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述提取單元具體用于將所述多個文件 向量共同的特征的特征值依次相加求和,得到所述總特征向量相應的特征值。
10.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述第一聚類單元具體包括 第一計算單元,用于分別計算所述多個文件向量與總特征向量的第一相似度; 第一排序單元,用于按照所述第一相似度對所述多個文件向量進行第一次排序;第二計算單元,用于分別計算所述多個文件向量與第一次排序后的最后一個文件向量 的第二相似度;第二排序單元,用于在第一次排序的基礎上,再按照第二相似度對所述第一次排序后 的文件向量進行第二次排序;第二聚類單元,用于按照第二次排序之后的文件向量對所述多個可讀取文件進行聚類。
11.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述第二聚類單元具體包括比較子單元,用于從第二次排序之后的第二個文件向量開始,逐次與當前文件向量的 上一個文件向量進行比較;聚類子單元,用于當比較結果滿足聚類條件時,則將所述當前文件向量和其上一個文 件向量聚為一類;生成子單元,用于當比較結果不滿足聚類條件時,則生成新的類。
12.根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述裝置還包括 獲取單元,用于根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量; 構造單元,用于構造滿足預置條件的新特征向量;第三計算單元,用于分別計算所述代表向量與新特征向量的第三相似度;第三排序單元,用于按照所述第三相似度對所述可讀取文件的各個類進行第一次排序;第四計算單元,用于分別計算所述每一類的代表向量與第一次排序后的最后一個類的 代表向量的第四相似度;第四排序單元,用于在第一次排序的基礎上,再按照第四相似度對所述第一次排序后 的代表向量進行第二次排序;第三聚類單元,用于按照第二次排序之后的代表向量對所述多個可讀取文件的類重新 進行聚類。
13.根據(jù)權利要求12所述的系統(tǒng),其特征在于,還包括判斷單元,用于判斷是否滿足迭代結束條件,如果是,則結束流程,如果否,則重新執(zhí)行 所述根據(jù)所述可讀取文件的聚類結果,獲取每一類的代表向量的步驟。
14.一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方法,其特征在于,該方法包括 從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁;對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng)頁對應的多個網(wǎng)頁向量; 根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向量; 根據(jù)所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待聚類 網(wǎng)頁進行聚類。
15.根據(jù)權利要求14所述的方法,其特征在于,還包括依據(jù)所述對多個待聚類網(wǎng)頁的聚類結果,建立類目索引,所述類目索引用于標識一類 網(wǎng)頁。
16.根據(jù)權利要求15所述的方法,其特征在于,還包括當接收到當前用戶輸入的檢索詞時,依據(jù)類目索引在某一類網(wǎng)頁中進行檢索。
17.根據(jù)權利要求14所述的方法,其特征在于,還包括分別從各類網(wǎng)頁中選取一個代表網(wǎng)頁,并建立各類中其他網(wǎng)頁分別與各個代表網(wǎng)頁的關聯(lián)。
18.根據(jù)權利要求17所述的方法,其特征在于,還包括 當接收到用戶輸入的檢索詞時,向用戶返回各類的代表網(wǎng)頁。
19.一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的系統(tǒng),其特征在于,該系統(tǒng)包括 獲取單元,從互聯(lián)網(wǎng)上獲取多個待聚類網(wǎng)頁;網(wǎng)頁聚類裝置,用于對所述多個待聚類網(wǎng)頁進行向量化,得到多個待聚類網(wǎng)頁對應的 多個網(wǎng)頁向量;根據(jù)所述多個網(wǎng)頁向量提取所述多個待聚類網(wǎng)頁的總網(wǎng)頁特征向量;根據(jù) 所述總網(wǎng)頁特征向量和各個網(wǎng)頁向量之間相似度的排序結果,對所述多個待聚類網(wǎng)頁進行聚類。
20.根據(jù)權利要求19所述的系統(tǒng),其特征在于,還包括建立索引單元,用于依據(jù)所述對多個待聚類網(wǎng)頁的聚類結果,建立類目索引,所述類目 索引用于標識一類網(wǎng)頁。
21.根據(jù)權利要求20所述的系統(tǒng),其特征在于,還包括檢索單元,用于當接收到當前用戶輸入的檢索詞時,依據(jù)類目索引在某一類網(wǎng)頁中進 行檢索。
22.根據(jù)權利要求14所述的系統(tǒng),其特征在于,還包括選取單元,用于分別從各類網(wǎng)頁中選取一個代表網(wǎng)頁,并建立各類中其他網(wǎng)頁分別與 各個代表網(wǎng)頁的關聯(lián)。
23.根據(jù)權利要求17所述的系統(tǒng),其特征在于,還包括返回單元,用于當接收到用戶輸入的檢索詞時,向用戶返回各類的代表網(wǎng)頁。
全文摘要
本申請?zhí)峁┝艘环N聚類方法和系統(tǒng),所述方法包括對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量;根據(jù)所述多個文件向量提取所述多個可讀取文件共同的總特征向量;根據(jù)所述總特征向量和各個文件向量之間的相似度對所述多個可讀取文件進行聚類。本申請還提供了一種對互聯(lián)網(wǎng)網(wǎng)頁進行聚類的方法和系統(tǒng)。采用本申請實施例的方法或系統(tǒng)進行聚類,減少了文件向量之間的相似度的比較次數(shù),進一步可以減少系統(tǒng)資源的負擔,例如CPU和內存的使用量,降低了聚類的運行時間,提高了聚類的運算性能。
文檔編號G06F17/30GK102053992SQ20091021171
公開日2011年5月11日 申請日期2009年11月10日 優(yōu)先權日2009年11月10日
發(fā)明者張濤, 郭家清 申請人:阿里巴巴集團控股有限公司