午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

新聞事件的聚類方法及裝置的制造方法

文檔序號:10655259閱讀:442來源:國知局
新聞事件的聚類方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種新聞事件的聚類方法及裝置。其中方法包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個新聞事件;從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動聚類方法,相對于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
【專利說明】
新聞事件的聚類方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種新聞事件的聚類方法及裝置?!颈尘凹夹g(shù)】
[0002]隨著信息化技術(shù)的迅速發(fā)展,每時每刻都會產(chǎn)生大量的新聞,新聞是指最新發(fā)生的、人們未知、欲知、應(yīng)知的事實的報道,如何將新聞快速而有效的傳播出去,成為當今社會一個非常重要的問題。除了傳統(tǒng)的報紙、電視等可以用來作為新聞傳播的媒介之外,網(wǎng)絡(luò)也是新聞傳播的一個重要媒介。
[0003]由于互聯(lián)網(wǎng)的開放特征,導(dǎo)致互聯(lián)網(wǎng)絡(luò)上面的新聞具有異構(gòu)、冗余、動態(tài)多變等特性,描述同一新聞的信息通常分散在不同網(wǎng)站上,表現(xiàn)形式也各不相同。為了能從雜亂無章的數(shù)據(jù)洪流中快速、準確地找到用戶需要的信息,新聞事件聚類技術(shù)是最重要的工具之一。 現(xiàn)有技術(shù)提供的新聞事件聚類大多采用人工專題的形式進行全景展現(xiàn),以人工編輯為主, 效率低下。
【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的新聞事件的聚類方法及裝置。
[0005]根據(jù)本發(fā)明的一個方面,提供了一種新聞事件的聚類方法,包括:
[0006]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0007]根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;
[0008]根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個新聞事件;
[0009]從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0010]根據(jù)本發(fā)明的另一方面,提供了一種新聞事件的聚類裝置,包括:
[0011]數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0012]數(shù)據(jù)查找模塊,適于根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;
[0013]聚類模塊,適于根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理, 其中,聚為一類的新聞頁面構(gòu)成一個新聞事件;
[0014]事件描述模塊,適于從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0015]根據(jù)本發(fā)明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標題;又根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞。將頁面標題和/或搜索詞作為新聞頁面的內(nèi)容描述信息,根據(jù)這些內(nèi)容描述信息來對新聞頁面進行聚類處理,并且最終得到新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動聚類方法,相對于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0016]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】?!靖綀D說明】
[0017]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0018]圖1示出了根據(jù)本發(fā)明一個實施例的新聞事件的聚類方法的流程圖;
[0019]圖2示出了根據(jù)本發(fā)明另一個實施例的新聞事件的聚類方法的流程圖;
[0020]圖3示出了根據(jù)本發(fā)明一個實施例的新聞事件的聚類裝置的功能框圖?!揪唧w實施方式】
[0021]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0022]圖1示出了根據(jù)本發(fā)明一個實施例的新聞事件的聚類方法的流程圖。如圖1所示, 該方法包括如下步驟:[〇〇23]步驟S101,挖掘新聞頁面的URL,提取新聞頁面的頁面標題。
[0024]首先,通過數(shù)據(jù)挖掘技術(shù)從各大新聞?wù)军c爬取新聞頁面的信息,新聞?wù)军c是專門提供新聞信息的網(wǎng)站,可以包括國家大型新聞門戶(如新華網(wǎng)、人民網(wǎng)等)、商業(yè)門戶(新浪新聞、網(wǎng)易新聞等)、地方新聞門戶(長江網(wǎng)、大洋網(wǎng)等)、以及行業(yè)門戶網(wǎng)站;還可以包括一些社交平臺(新浪微博等)。這些新聞?wù)军c的新聞信息包羅萬象,用戶訪問量很大,通過挖掘這些新聞?wù)军c的新聞頁面,可以獲取較為全面的新聞數(shù)據(jù)。
[0025]本發(fā)明一個實施例中,可預(yù)先維護新聞?wù)军c列表,其中記錄了幾千個訪問量較高的新聞?wù)军c,通過爬蟲定期爬取這些新聞?wù)军c的新聞頁面的URL。本發(fā)明另一個實施例中, 也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。在挖掘得到新聞頁面的URL之后,提取這些新聞頁面的頁面標題。
[0026]步驟S102,根據(jù)搜索點擊日志數(shù)據(jù),查找新聞頁面的URL對應(yīng)的搜索詞。
[0027]考慮到有些新聞頁面的頁面標題五花八門,但內(nèi)容是很相似的。舉例來說,“海口" 拆違毆打群眾"區(qū)長引咎辭職”、“??谑形?毆打手無寸鐵婦女兒童黨紀國法不容”、“評論-??谡匍_緊急會議問責“毆打婦孺”事件”這三個新聞頁面的頁面標題相關(guān)度不大,但實際上是同一新聞事件的報道。為了能將類似這樣的新聞聚到一類,本發(fā)明實施例利用了搜索點擊日志數(shù)據(jù),搜索點擊日志數(shù)據(jù)記錄了用戶使用搜索引擎輸入搜索詞后所選擇點擊的搜索結(jié)果URL的相關(guān)數(shù)據(jù)。假如用戶輸入某個搜索詞,得到若干個搜索結(jié)果,用戶點擊打開了其中的網(wǎng)頁A和網(wǎng)頁B,則認為網(wǎng)頁A和網(wǎng)頁B都是與搜索詞存在關(guān)聯(lián)的,是用戶的搜索行為協(xié)助建立了這種關(guān)聯(lián)。[〇〇28]基于上述關(guān)聯(lián),在挖掘得到新聞頁面的URL之后,調(diào)取搜索引擎服務(wù)器提供的搜索點擊日志數(shù)據(jù)。在搜索點擊日志數(shù)據(jù)中查找上述挖掘得到的新聞頁面的URL對應(yīng)的搜索詞, 即查找用戶點擊新聞頁面的URL時所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關(guān)聯(lián)。 [〇〇29]步驟S103,根據(jù)頁面標題和/或搜索詞,對新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個新聞事件。
[0030]在通過步驟S101和步驟S102得到頁面標題和搜索詞后,可以統(tǒng)一將頁面標題和搜索詞看做是新聞頁面的URL的內(nèi)容描述信息。一個新聞頁面的URL對應(yīng)一個頁面標題和/或多個搜索詞,一個搜索詞也可對應(yīng)多個新聞頁面的URL。根據(jù)這些內(nèi)容描述信息來對新聞頁面進行聚類處理,使得聚成一類的新聞頁面構(gòu)成一個新聞事件。
[0031]步驟S104,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到新聞事件的描述信息。[〇〇32]在完成聚類后,一個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞又構(gòu)成了該新聞事件的內(nèi)容描述,這里包含了多個頁面標題和/或多個搜索詞。這個內(nèi)容描述顯得很冗長,本發(fā)明從其中選取一些有代表性的頁面標題和/或搜索詞作為新聞事件的描述fg息。
[0033]根據(jù)本發(fā)明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標題;又根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞。將頁面標題和/或搜索詞作為新聞頁面的內(nèi)容描述信息,根據(jù)這些內(nèi)容描述信息來對新聞頁面進行聚類處理,并且最終得到新聞事件的描述信息。本發(fā)明提供的是新聞事件的自動聚類方法,相對于現(xiàn)有技術(shù)來說,效率大大提高。另外,本發(fā)明一方面考慮到頁面標題之間的關(guān)聯(lián)性,另一方面考慮到搜索詞的關(guān)聯(lián)性,利用兩方面的關(guān)聯(lián)性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0034]圖2示出了根據(jù)本發(fā)明另一個實施例的新聞事件的聚類方法的流程圖。如圖2所示,該方法包括如下步驟:[〇〇35]步驟S201,挖掘新聞頁面的URL,提取新聞頁面的頁面標題。[〇〇36] 步驟S201至步驟S203為數(shù)據(jù)準備的過程。在步驟S201中,首先通過數(shù)據(jù)挖掘技術(shù)挖掘新聞頁面的URL。在一個實施例中,可預(yù)先維護新聞?wù)军c列表,其中記錄了幾千個訪問量較高的新聞?wù)军c,通過爬蟲定期爬取這些新聞?wù)军c的新聞頁面的URL。在另一個實施例中,也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇37] 可選地,在挖掘新聞頁面的URL之后,方法還包括:對新聞頁面的URL進行歸一化或消重處理。具體來說可分幾步進行處理:1)對新聞頁面的URL作歸一化處理,比如一些帶錨點標記的URL會被歸一化處理為無錨點標記;2)將內(nèi)容分頁的一組URL做首頁歸一處理,比如一組圖片新聞的URL歸一處理為首頁URL。經(jīng)過上述處理后,提取新聞頁面的頁面標題。
[0038]可選地,在提取新聞頁面的頁面標題之后,方法還包括:去除頁面標題的后綴信息。比如一些新聞頁面的頁面標題往往加有網(wǎng)站或頻道的后綴,本方法可將這些后綴信息去除,留下更具特征性的頁面標題,便于后續(xù)聚類處理。
[0039]步驟S202,根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍。
[0040]由于新聞具有較高的時效性要求,而搜索點擊日志數(shù)據(jù)記錄了很長時間范圍內(nèi)的用戶搜索點擊數(shù)據(jù),因此本方法可根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍,以得到更具時效性的數(shù)據(jù)。例如,新聞事件的統(tǒng)計事件粒度設(shè)置為1天,那么所確定的預(yù)設(shè)時間范圍為1天內(nèi)。
[0041]步驟S203,在屬于預(yù)設(shè)時間范圍的搜索點擊日志數(shù)據(jù)中查找用戶點擊新聞頁面的 URL時所輸入的搜索詞。[〇〇42]搜索點擊日志數(shù)據(jù)包含搜索詞、搜索時間以及用戶點擊的搜索結(jié)果URL,將所挖掘出的新聞頁面的URL與用戶點擊的搜索結(jié)果URL進行匹配,若匹配一致,則查找得到對應(yīng)的搜索詞和搜索時間。進一步的,查看搜索時間是否屬于預(yù)設(shè)時間范圍,若是則確定搜索詞即為新聞頁面的URL對應(yīng)的搜索詞。如果新聞事件的統(tǒng)計事件粒度為1天,則查找1天內(nèi)的用戶點擊新聞頁面的URL時所輸入的搜索詞;如果新聞事件的統(tǒng)計事件粒度為1小時,則查找1小時內(nèi)用戶點擊新聞頁面的URL時所輸入的搜索詞。
[0043]可選地,在查找到搜索詞后還需將表達含糊、表達力較弱的搜索詞去掉,留下更具特定新聞指向的搜索詞。本發(fā)明中通過制定黑名單規(guī)則或正則表達式實現(xiàn)搜索詞的過濾。 具體來說,可從以下幾個方面進行過濾:
[0044](1)去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞,這類搜索詞含義寬泛,不具指向性,比如,預(yù)設(shè)長度值為3,去除搜索詞長度小于3的搜索詞。
[0045](2)去除位于黑名單中的搜索詞。可將某些與網(wǎng)站或頻道相關(guān)的詞加入黑名單,比如騰訊新聞、新浪體育等。如發(fā)現(xiàn)搜索詞落入黑名單,則直接去除。
[0046](3)去除與多個新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞。如果某個搜索詞與很多新聞分類的URL關(guān)聯(lián),則考慮去掉。具體規(guī)則可以為:如果跨新聞分類的搜索詞的長度小于某個閾值(如8),則去掉;如果大于或等于該閾值,則考慮保留。
[0047](4)去除屬于干擾詞的搜索詞。在搜索點擊日志數(shù)據(jù)中會發(fā)現(xiàn)一些干擾詞,干擾詞是指用戶點擊的URL的具體內(nèi)容與搜索詞的涵義毫無關(guān)聯(lián)。一種做法是定時挖掘這類干擾詞,如果一個搜索詞對應(yīng)的用戶點擊的URL超過15個,即可認定為干擾詞。
[0048]步驟S204,通過計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。
[0049]新聞頁面的聚類是根據(jù)頁面標題之間的關(guān)聯(lián)性和搜索詞之間的關(guān)聯(lián)性進行聚類的。首先,計算頁面標題和/或搜索詞的文本相似度。根據(jù)上面的描述可知,一個新聞頁面的 URL對應(yīng)一個頁面標題和/或多個搜索詞,按照文本相似度進行聚類,如果兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將兩個新聞頁面聚為一類。具體的說,將頁面標題和/或搜索詞進行分詞處理,利用詞袋模型將頁面標題和/或搜索詞轉(zhuǎn)化為向量,通過相似度算法計算向量的相似度,若相似度高于預(yù)設(shè)閾值,則進行聚類處理。
[0050]除了通過計算文本相似度進行聚類外,還通過比較搜索詞進行聚類。若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將兩個新聞頁面聚為一類。[〇〇51 ] 舉例來說,共有5個URL,分別為URL1、URL2、URL3、URL4和URL5,通過計算文本相似度將URL1、URL2和URL3聚為一類,再通過比較搜索詞得知URL1和URL5具有相同的搜索詞,則將URL5也聚到該類別中。最終聚為一類的新聞頁面構(gòu)成一個新聞事件。[〇〇52]步驟S205,采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。
[0053]通過以上的描述可知,一個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞構(gòu)成了該新聞事件的內(nèi)容描述,則一個新聞事件具有很多個頁面標題和搜索詞,這個描述顯得很冗長,因此本實施例采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。比如,一個簡單的聚類,有兩個新聞頁面的URL,對應(yīng)的內(nèi)容描述包括:兩個新聞頁面的URL的頁面標題及一個搜索詞。如果這個搜索詞已經(jīng)關(guān)聯(lián)了兩個URL,則可丟掉原來兩個頁面標題,只用這個搜索詞作為新聞事件的描述信息。對于復(fù)雜的情況,一個聚類對應(yīng)多個搜索詞、多個頁面標題,那先選能關(guān)聯(lián)最多URL的搜索詞或頁面標題,再從剩余中選關(guān)聯(lián)次最多的搜索詞或頁面標題。選擇過程一直持續(xù)到可以將一個聚類中所有的URL 都關(guān)聯(lián)到,這時,已選擇出來的搜索詞或頁面標題,就構(gòu)成了描述新聞事件的最小描述子集。
[0054]根據(jù)本實施例提供的新聞事件的聚類方法,通過提取新聞頁面的頁面標題,查找新聞頁面對應(yīng)的搜索詞,計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。該聚類過程既考慮頁面標題之間的關(guān)聯(lián)性,又考慮搜索詞之間的關(guān)聯(lián)性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對新聞事件的描述的準確性和全面性。進一步的,在查找搜索點擊日志數(shù)據(jù)時參考新聞事件的統(tǒng)計事件粒度,滿足了新聞事件的時效性要求。
[0055]圖3示出了根據(jù)本發(fā)明一個實施例的新聞事件的聚類裝置的功能框圖。如圖3所示,該裝置包括:數(shù)據(jù)挖掘模塊301,數(shù)據(jù)查找模塊302,聚類模塊303,以及事件描述模塊 304〇[〇〇56]數(shù)據(jù)挖掘模塊301,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題。在一個實施例中,裝置預(yù)先維護新聞?wù)军c列表,其中記錄了幾千個訪問量較高的新聞?wù)军c,數(shù)據(jù)挖掘模塊301通過爬蟲定期爬取這些新聞?wù)军c的新聞頁面的URL。在另一個實施例中,利用客戶端中安裝的客戶端程序收集用戶訪問行為數(shù)據(jù),數(shù)據(jù)挖掘模塊301從這些用戶訪問行為數(shù)據(jù)中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇57]數(shù)據(jù)查找模塊302,適于根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞。進一步的,數(shù)據(jù)查找模塊302適于:在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。[〇〇58]數(shù)據(jù)查找模塊302調(diào)取搜索引擎服務(wù)器提供的搜索點擊日志數(shù)據(jù),搜索點擊日志數(shù)據(jù)記錄了用戶使用搜索引擎輸入搜索詞后所選擇點擊的搜索結(jié)果URL的相關(guān)數(shù)據(jù)。在搜索點擊日志數(shù)據(jù)中查找上述挖掘得到的新聞頁面的URL對應(yīng)的搜索詞,即查找用戶點擊新聞頁面的URL時所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關(guān)聯(lián)。
[0059]聚類模塊303,適于根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個新聞事件。
[0060]事件描述模塊304,適于從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0061]進一步的,本裝置還包括:時間粒度控制模塊305,適于根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍。由于新聞具有較高的時效性要求,而搜索點擊日志數(shù)據(jù)記錄了很長時間范圍內(nèi)的用戶搜索點擊數(shù)據(jù),因此時間粒度控制模塊305可根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍,以得到更具時效性的數(shù)據(jù)。例如,新聞事件的統(tǒng)計事件粒度設(shè)置為1天,那么所確定的預(yù)設(shè)時間范圍為1天內(nèi)。數(shù)據(jù)查找模塊302進一步適于:在屬于所述預(yù)設(shè)時間范圍的搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。 搜索點擊日志數(shù)據(jù)包含搜索詞、搜索時間以及用戶點擊的搜索結(jié)果URL,將所挖掘出的新聞頁面的URL與用戶點擊的搜索結(jié)果URL進行匹配,若匹配一致,則查找得到對應(yīng)的搜索詞和搜索時間。進一步的,查看搜索時間是否屬于預(yù)設(shè)時間范圍,若是則確定搜索詞即為新聞頁面的URL對應(yīng)的搜索詞。如果新聞事件的統(tǒng)計事件粒度為1天,則查找1天內(nèi)的用戶點擊新聞頁面的URL時所輸入的搜索詞;如果新聞事件的統(tǒng)計事件粒度為1小時,則查找1小時內(nèi)用戶點擊新聞頁面的URL時所輸入的搜索詞。
[0062]聚類模塊303進一步適于:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。
[0063]聚類模塊303進一步適于:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0064]新聞頁面的聚類是根據(jù)頁面標題之間的關(guān)聯(lián)性和搜索詞之間的關(guān)聯(lián)性進行聚類的。首先,計算頁面標題和/或搜索詞的文本相似度。根據(jù)上面的描述可知,一個新聞頁面的 URL對應(yīng)一個頁面標題和/或多個搜索詞,按照文本相似度進行聚類,如果兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將兩個新聞頁面聚為一類。具體的說,將頁面標題和/或搜索詞進行分詞處理,利用詞袋模型將頁面標題和/或搜索詞轉(zhuǎn)化為向量,通過相似度算法計算向量的相似度,若相似度高于預(yù)設(shè)閾值,則進行聚類處理。
[0065]除了通過計算文本相似度進行聚類外,還通過比較搜索詞進行聚類。若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將兩個新聞頁面聚為一類。
[0066]事件描述模塊304進一步適于:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。
[0067]—個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞構(gòu)成了該新聞事件的內(nèi)容描述,則一個新聞事件具有很多個頁面標題和搜索詞,這個描述顯得很冗長,因此本裝置采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。比如,一個簡單的聚類,有兩個新聞頁面的URL,對應(yīng)的內(nèi)容描述包括:兩個新聞頁面的URL的頁面標題及一個搜索詞。如果這個搜索詞已經(jīng)關(guān)聯(lián)了兩個URL,則可丟掉原來兩個頁面標題,只用這個搜索詞作為新聞事件的描述信息。對于復(fù)雜的情況,一個聚類對應(yīng)多個搜索詞、多個頁面標題,那先選能關(guān)聯(lián)最多URL的搜索詞或頁面標題,再從剩余中選關(guān)聯(lián)次最多的搜索詞或頁面標題。選擇過程一直持續(xù)到可以將一個聚類中所有的URL都關(guān)聯(lián)到,這時,已選擇出來的搜索詞或頁面標題,就構(gòu)成了描述新聞事件的最小描述子集。
[0068]進一步的,本裝置還包括:數(shù)據(jù)處理模塊306,適于對所述新聞頁面的URL進行歸一化或消重處理;或者,適于去除所述頁面標題的后綴信息;或者,適于去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。有關(guān)數(shù)據(jù)處理的具體內(nèi)容可參見方法實施例的描述。
[0069]根據(jù)本實施例提供的新聞事件的聚類裝置,通過提取新聞頁面的頁面標題,查找新聞頁面對應(yīng)的搜索詞,計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。該聚類過程既考慮頁面標題之間的關(guān)聯(lián)性,又考慮搜索詞之間的關(guān)聯(lián)性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對新聞事件的描述的準確性和全面性。進一步的,在查找搜索點擊日志數(shù)據(jù)時參考新聞事件的統(tǒng)計事件粒度,滿足了新聞事件的時效性要求。[〇〇7〇]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0071]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。[〇〇72]類似地,應(yīng)當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此, 遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。[〇〇73]本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。[〇〇74]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0075]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的新聞事件的聚類裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。 這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0076] 應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。[〇〇77]本發(fā)明公開了:[〇〇78] A1、一種新聞事件的聚類方法,包括:
[0079]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0080]根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;
[0081]根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構(gòu)成一個新聞事件;
[0082]從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0083]A2、根據(jù)A1所述的方法,所述根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞進一步包括:在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0084]A3、根據(jù)A2所述的方法,所述在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞進一步包括:
[0085]根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍;
[0086]在屬于所述預(yù)設(shè)時間范圍的搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的 URL時所輸入的搜索詞。
[0087]A4、根據(jù)A1或A2或A3所述的方法,所述根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理進一步包括:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。
[0088]A5、根據(jù)A4所述的方法,所述通過計算所述頁面標題和/或搜索詞的文本相似度, 和/或比較搜索詞,對所述新聞頁面進行聚類處理進一步包括:
[0089]若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個新聞頁面聚為一類;
[0090]和/或,若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0091]A6、根據(jù)A1-A5任一項所述的方法,所述從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息進一步包括:
[0092]采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。[〇〇93]A7、根據(jù)A1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對所述新聞頁面的URL進行歸一化或消重處理。
[0094]A8、根據(jù)A1所述的方法,在所述提取新聞頁面的頁面標題之后,所述方法還包括:去除所述頁面標題的后綴信息。[〇〇95]A9、根據(jù)A1所述的方法,在所述查找新聞頁面的URL對應(yīng)的搜索詞之后,所述方法還包括:
[0096]去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;
[0097]和/或,去除位于黑名單中的搜索詞;[〇〇98]和/或,去除與多個新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;[〇〇99]和/或,去除屬于干擾詞的搜索詞。[〇1〇〇] B10、一種新聞事件的聚類裝置,包括:
[0101]數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0102]數(shù)據(jù)查找模塊,適于根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;
[0103]聚類模塊,適于根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理, 其中,聚為一類的新聞頁面構(gòu)成一個新聞事件;
[0104]事件描述模塊,適于從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0105]B11、根據(jù)B10所述的裝置,所述數(shù)據(jù)查找模塊進一步適于:在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0106]B12、根據(jù)B11所述的裝置,還包括:時間粒度控制模塊,適于根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍;
[0107]所述數(shù)據(jù)查找模塊進一步適于:在屬于所述預(yù)設(shè)時間范圍的搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0108]B13、根據(jù)B10或B11或B12所述的裝置,所述聚類模塊進一步適于:通過計算所述頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對所述新聞頁面進行聚類處理。
[0109]B14、根據(jù)B13所述的裝置,所述聚類模塊進一步適于:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0110]B15、根據(jù)B10-B14任一項所述的裝置,所述事件描述模塊進一步適于:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。B16、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于對所述新聞頁面的URL進行歸一化或消重處理。
[0112]B17、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于去除所述頁面標題的后綴fg息。[〇113]B18、根據(jù)B10所述的裝置,還包括:數(shù)據(jù)處理模塊,適于去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。
【主權(quán)項】
1.一種新聞事件的聚類方法,包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新 聞頁面構(gòu)成一個新聞事件;從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中查找得到所述新聞事 件的描述信息。2.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL 對應(yīng)的搜索詞進一步包括:在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時所 輸入的搜索詞。3.根據(jù)權(quán)利要求2所述的方法,所述在搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁 面的URL時所輸入的搜索詞進一步包括:根據(jù)新聞事件的統(tǒng)計事件粒度確定預(yù)設(shè)時間范圍;在屬于所述預(yù)設(shè)時間范圍的搜索點擊日志數(shù)據(jù)中查找用戶點擊所述新聞頁面的URL時 所輸入的搜索詞。4.根據(jù)權(quán)利要求1或2或3所述的方法,所述根據(jù)所述頁面標題和/或搜索詞,對所述新 聞頁面進行聚類處理進一步包括:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。5.根據(jù)權(quán)利要求4所述的方法,所述通過計算所述頁面標題和/或搜索詞的文本相似 度,和/或比較搜索詞,對所述新聞頁面進行聚類處理進一步包括:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預(yù)設(shè)閾值,則將所述兩個 新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應(yīng)的搜索詞相同,則將所述兩個新聞頁面聚為一類。6.根據(jù)權(quán)利要求1-5任一項所述的方法,所述從每個新聞事件的所有新聞頁面對應(yīng)的 頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息進一步包括:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞 中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。7.根據(jù)權(quán)利要求1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對所 述新聞頁面的URL進行歸一化或消重處理。8.根據(jù)權(quán)利要求1所述的方法,在所述提取新聞頁面的頁面標題之后,所述方法還包 括:去除所述頁面標題的后綴信息。9.根據(jù)權(quán)利要求1所述的方法,在所述查找新聞頁面的URL對應(yīng)的搜索詞之后,所述方 法還包括:去除搜索詞長度小于預(yù)設(shè)長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關(guān)聯(lián)的搜索詞;和/或,去除屬于干擾詞的搜索詞。10.—種新聞事件的聚類裝置,包括:數(shù)據(jù)挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;數(shù)據(jù)查找模塊,適于根據(jù)搜索點擊日志數(shù)據(jù),查找所述新聞頁面的URL對應(yīng)的搜索詞;聚類模塊,適于根據(jù)所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中, 聚為一類的新聞頁面構(gòu)成一個新聞事件;事件描述模塊,適于從每個新聞事件的所有新聞頁面對應(yīng)的頁面標題和/或搜索詞中 查找得到所述新聞事件的描述信息。
【文檔編號】G06F17/30GK106021418SQ201610319385
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】彭力揚, 韓明輝, 王肖磊, 陳勁, 魏自立, 李 浩
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1