午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種新型的中文新聞頁面增量采集的方法及裝置的制作方法

文檔序號:6441965閱讀:175來源:國知局
專利名稱:一種新型的中文新聞頁面增量采集的方法及裝置的制作方法
技術領域
本發(fā)明涉及信息檢索和數(shù)據(jù)集成領域,特別是涉及ー種新型的中文新聞頁面増量采集的方法及裝置。
背景技術
Web自上世紀90年代初誕生以來便以驚人的速度發(fā)展,到目前Web已經(jīng)成為了世界上最大的信息倉庫,覆蓋了現(xiàn)實世界的各個領域,成為了人類工作生活獲取信息主要途徑。Web信息的發(fā)布主要是以網(wǎng)頁的形式實現(xiàn),據(jù)最新的估計,Web中網(wǎng)頁的數(shù)量已經(jīng)超過了 550個billion (I個billion等于10億)。顯然手工方式的訪問已經(jīng)無法滿足人們信息獲取的需要,為了讓人們更有效地訪問和利用Web中海量的信息,自上世紀90年代中期開始研究者們便開始了 Web信息捜索和集成領域的研究,同時產(chǎn)業(yè)界也出現(xiàn)了各種Web信息 捜索和集成相關的應用,比如垂直搜索引擎、輿情分析等。這些應用實現(xiàn)的ー個必要步驟就是先獲取所需信息所在的頁面然后將所需的信息從結構化程度很差的網(wǎng)頁中準確地抽取出來。Web中的新聞是指新聞網(wǎng)站(如新華網(wǎng))或門戶網(wǎng)站(如網(wǎng)易)以及其它擁有新聞發(fā)布和轉載權限的網(wǎng)站以網(wǎng)頁形式發(fā)布的新聞,是目前人們在互聯(lián)網(wǎng)上非常重要的信息獲取來源。新聞信息在Web信息中占有較大的比例。基于新聞信息產(chǎn)生了許多重要的應用和研究課題,主要包括以下兩個方面(I)新聞搜索引擎面向新聞的垂直搜索引擎,從數(shù)量眾多的具有新聞發(fā)布權限的網(wǎng)站中獲取并集成新聞,可以為人們提供即時全面的對特定新聞事件的捜索。為了保證新聞信息的及時性和全面性,必然要能夠對大量的新聞頁面的及時處理,處理的前提當然得先獲取新聞頁面。(2)輿情分析是近十年自然語言處理和信息檢索領域的熱點研究課題。其目標是從連續(xù)的報道中識別出系統(tǒng)未知的話題以及與該話題相關的報道。其主要信息來源之一就是Web中發(fā)布的新聞信息。由上面對應用的介紹可以看出,新聞信息是它們非常重要的數(shù)據(jù)來源之一,獲得新聞信息的前提是采集到新聞頁面。但由于Web中新聞網(wǎng)站數(shù)量眾多,而且新聞網(wǎng)站中每天會出現(xiàn)大量新的新聞頁面,如果每次將一個新聞網(wǎng)站中的所有新聞頁面都采集一遍,必然會造成大量重復頁面的采集,嚴重影響對信息處理的效率和檢索的質量。因而,目前需要本領域技術人員迫切解決的ー個技術問題就是如何找到ー種新型的中文新聞頁面采集方法,能夠有效的解決目前中文新聞頁面采集方法中存在的因為重復采集新聞頁面而帶來的信息處理的效率低的缺陷。

發(fā)明內容
本發(fā)明所要解決的ー個技術問題是提供ー種新型的中文新聞頁面增量采集的方法及裝置,能夠有效的解決目前中文新聞頁面采集方法中存在的因為重復采集新聞頁面而帶來的信息處理的效率低的缺陷。為了解決上述問題,本發(fā)明公開了ー種新型的中文新聞頁面增量采集的方法,包括對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面;對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器;對新增頁面進行采集,獲得采集后的新增頁面;對新聞頁面進行識別,獲得識別后的新聞頁面。優(yōu)選的,所述對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面的步驟,包括
接收識別命令,開始對穩(wěn)定頁面進行識別;指定新聞網(wǎng)站首頁的網(wǎng)址;選取時間點間隔相同的連續(xù)10個時間點,獲得時間間隔相同的連續(xù)10個時間點;其中,所述連續(xù)10個時間點的時間間隔能夠由用戶指定;在所述連續(xù)10個時間點的每個時間點,對所述指定新聞網(wǎng)站的所有頁面進行爬取,獲得相應的連續(xù)10個時間點的每個時間點的頁面集合;依據(jù)所述每個時間點的頁面集合之間的鏈接關系,針對所述每個時間點的頁面集合,構建所述每個時間點的頁面集合的有向圖,獲得連續(xù)10個時間點的每個時間點的頁面集合的有向圖;對所述連續(xù)10個時間點的每個時間點的頁面集合進行頁面集合的交集操作,獲得相應的交集集合;對所述獲得的相應的交集集合中的每個頁面進行判斷及識別,獲得識別后的穩(wěn)定頁面。優(yōu)選的,所述對所述獲得的相應的交集集合中的每個頁面進行判斷及識別,獲得識別后的穩(wěn)定頁面的步驟,包括接收判斷及識別命令,開始對所述獲得的相應的交集集合中的每個頁面進行判斷及識別;通過判斷所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是否相同,來獲得相應的判斷及識別結果;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,則所述頁面集合中的該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是不相同的,則所述頁面集合中的該頁面不是穩(wěn)定頁面,繼續(xù)在所述頁面集合中尋找相應的頁面,至到所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,該頁面為穩(wěn)定頁面,停止尋找過程,該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面。優(yōu)選的,所述對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器的步驟,包括指定新聞網(wǎng)站首頁的網(wǎng)址;從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁面及非新聞頁面,獲得相應的相同數(shù)量的新聞頁面及相同數(shù)量的非新聞頁面;其中,所述新聞頁面的數(shù)量及所述非新聞頁面的數(shù)量由用戶指定;采用ISUC算法進行相應的計算,獲得生成的新聞頁面分類器。
優(yōu)選的,所述對新增頁面進行采集,獲得采集后的新增頁面的步驟,包括接收頁面采集命令,開始對新增頁面進行采集;對每ー個穩(wěn)定頁面進行相應的頁面鏈接進行獲取,獲得針對所述每ー個穩(wěn)定頁面的相應的當前頁面鏈接;將所述獲得的當前頁面鏈接加入到原始頁面鏈接集合中,獲得更新后的頁面鏈接集合;其中,若原始頁面鏈接集合不存在,則更新后的頁面鏈接集合為當前頁面鏈接;依據(jù)所述更新后的頁面鏈接集合中的每個鏈接,獲得所述每個鏈接相應的指向頁面,獲得所述每個鏈接相應的指向頁面;將獲得的所述每個鏈接相應的指向頁面放入原始頁面集合中,獲得采集后的新增頁面;每隔相同的時間間隔執(zhí)行從對每一個穩(wěn)定頁面進行相應的頁面鏈接進行獲取,獲 得針對所述每ー個穩(wěn)定頁面的相應的當前頁面鏈接到將獲得的所述每個鏈接相應的指向頁面放入原始頁面集合中,獲得采集后的新增頁面的操作的整個過程;其中,所述每個時間由客戶指定;當執(zhí)行完所有的上述循環(huán)操作后,將每個循環(huán)過程中所獲得的采集后的新增頁面進行匯總,獲得采集后的新增頁面。優(yōu)選的,所述對新聞頁面進行識別,獲得識別后的新聞頁面的步驟,包括使用所述新聞頁面分類器,對新頁面集合中的每個頁面中的新聞頁面及非新聞頁面進行識別,獲得相應的頁面中的新聞頁面及相應的頁面的非新聞頁面;將上述新聞頁面放入上述原始新增新聞頁面集合中,獲得更新后的新聞頁面集合;建立所述更新后的新聞頁面集合與新聞頁面的一一對應的關系;依據(jù)所述更新后的新聞頁面集合與新聞頁面的一一對應的關系,由所述更新后的新聞頁面集合,獲得識別后的新聞頁面。本發(fā)明還公開了ー種新型的中文新聞頁面增量采集的裝置,包括穩(wěn)定頁面獲取裝置,用于獲得一個時間段內不同時間點的新聞網(wǎng)站的頁面鏈接結構;新聞頁面分類器生成裝置,用于通過人工標注的頁面生成相應的新聞頁面識別器;新增頁面采集裝置,用于從新聞網(wǎng)站中采集新增的頁面;新聞頁面識別裝置,用于通過新聞頁面識別器在新增頁面中對新聞頁面進行識別;新聞頁面存儲裝置,用于存儲采集到的新增頁面。優(yōu)選的,所述穩(wěn)定頁面獲取裝置,包括獲取新聞網(wǎng)站的頁面鏈接結構裝置,用于在多個特定時間點獲取新聞網(wǎng)站的頁面鏈接結構;獲取穩(wěn)定頁面裝置,用于通過比較不同時間點的新聞網(wǎng)站的頁面鏈接結構,獲得穩(wěn)定頁面。優(yōu)選的,所述新聞頁面分類器生成裝置,包括
新聞頁面采集裝置,用于隨機在所要采集的新聞網(wǎng)站中選取足夠的頁面;標注新聞頁面裝置,用于人工標注所選取的頁面是否為新聞頁面;獲取新聞頁面分類器裝置,用于將標注的頁面作為訓練集,通過機器學習的方法,獲得新聞頁面分類器。優(yōu)選的,所述新增頁面采集裝置,包括頁面采集裝置,用于對新增的頁面進行采集;獲取穩(wěn)定頁面的新增頁面裝置,用于獲取穩(wěn)定頁面指向的新增頁面;重復頁面清除裝置,用于將重復采集的頁面進行清除。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點 本發(fā)明能夠避免大量中文新聞頁面的重復采集,大大地提高了信息處理的效率和檢索的質量??傊?,本發(fā)明提供了ー種新型的中文新聞頁面增量采集的方法及裝置,能夠有效的解決目前中文新聞頁面采集方法中存在的因為重復采集新聞頁面而帶來的信息處理的效率低的缺陷。


圖I是本發(fā)明ー種新型的中文新聞頁面增量采集的方法實施例I的流程示意圖;圖2是本發(fā)明ー種新型的中文新聞頁面增量采集的方法實施例2的流程示意圖;圖3是本發(fā)明中新聞頁面增量采集整體框架的結構示意圖;圖4是本發(fā)明中的步驟301即穩(wěn)定頁面的識別的流程示意圖;圖5是本發(fā)明中的步驟301中子步驟J3到子步驟J7的流程示意圖;圖6是本發(fā)明中的步驟302即新聞頁面分類器的生成的流程示意圖;圖7是本發(fā)明中的步驟303即新聞頁面分類器的生成的流程示意圖;圖8是本發(fā)明中的步驟304即新聞頁面的識別的流程示意圖;圖9是本發(fā)明ー種新型的中文新聞頁面增量采集的方法實施例3的t時刻新華網(wǎng)鏈接結構示意圖;圖10是本發(fā)明ー種新型的中文新聞頁面增量采集的裝置的結構示意圖;圖11是本發(fā)明ー種新型的中文新聞頁面增量采集的模塊的結構示意圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進ー步詳細的說明。本發(fā)明的核心思想之ー是提供了ー種新型的中文新聞頁面增量采集的方法,包括對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面;對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器;對新增頁面進行采集,獲得采集后的新增頁面;對新聞頁面進行識別,獲得識別后的新聞頁面;該方法能夠有效的解決目前中文新聞頁面采集方法中存在的因為重復采集新聞頁面而帶來的信息處理的效率低的缺陷。參照圖1,示出了本發(fā)明ー種新型的中文新聞頁面增量采集的方法實施例I的流程示意圖,具體可以包括
步驟101、對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面。其中,所述步驟101,具體可以包括子步驟Al、接收識別命令,開始對穩(wěn)定頁面進行識別。子步驟A2、指定新聞網(wǎng)站首頁的網(wǎng)址。子步驟A3、選取時間點間隔相同的連續(xù)10個時間點,獲得時間間隔相同的連續(xù)10個時間點;其中,所述連續(xù)10個時間點的時間間隔能夠由用戶指定。子步驟A4、在所述連續(xù)10個時間點的每個時間點,對所述指定新聞網(wǎng)站的所有頁面進行爬取,獲得相應的連續(xù)10個時間點的每個時間點的頁面集合。子步驟A5、依據(jù)所述每個時間點的頁面集合之間的鏈接關系,針對所述每個時間 點的頁面集合,構建所述每個時間點的頁面集合的有向圖,獲得連續(xù)10個時間點的每個時間點的頁面集合的有向圖。子步驟A6、對所述連續(xù)10個時間點的每個時間點的頁面集合進行頁面集合的交集操作,獲得相應的交集集合。子步驟A7、對所述獲得的相應的交集集合中的每個頁面進行判斷及識別,獲得識別后的穩(wěn)定頁面。其中,子步驟A7,具體可以包括子步驟BI、接收判斷及識別命令,開始對所述獲得的相應的交集集合中的每個頁面進行判斷及識別。子步驟B2、通過判斷所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是否相同,來獲得相應的判斷及識別結果;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,則所述頁面集合中的該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是不相同的,則所述頁面集合中的該頁面不是穩(wěn)定頁面,繼續(xù)在所述頁面集合中尋找相應的頁面,至到所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,該頁面為穩(wěn)定頁面,停止尋找過程,該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面。步驟102、對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器。其中,所述步驟102,具體可以包括子步驟Cl、指定新聞網(wǎng)站首頁的網(wǎng)址。子步驟C2、從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁面及非新聞頁面,獲得相應的相同數(shù)量的新聞頁面及相同數(shù)量的非新聞頁面;其中,所述新聞頁面的數(shù)量及所述非新聞頁面的數(shù)量由用戶指定。子步驟C3、采用ISUC算法進行相應的計算,獲得生成的新聞頁面分類器。為了使本領域的普通技術人員更好地理解本發(fā)明,下面詳細介紹采用ISUC算法進行相應的計算,獲得生成的新聞頁面分類器,具體如下所述訓練獲得新聞頁面分類器I)隨機選取η個新聞頁面和η個非新聞頁面,η的大小由用戶指定。2)對η個新聞頁面{xl, χ2,…,χη}執(zhí)行步驟2)步驟8)。3)設集合 Cl = {xl},集合數(shù)量 num = I,集合 Z = {x2, x3, . . . , xn}。4)如果Z為空,轉到步驟16)。
5)從Z中取出一個頁面Xi。6)分別計算xi與Cl, C2, · · · , Cnum的相似度,計算公式為
權利要求
1.ー種新型的中文新聞頁面增量采集的方法,其特征在于,包括對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面;對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器;對新增頁面進行采集,獲得采集后的新增頁面;對新聞頁面進行識別,獲得識別后的新聞頁面。
2.根據(jù)權利要求I所述的方法,其特征在于,所述對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面的步驟,包括接收識別命令,開始對穩(wěn)定頁面進行識別;指定新聞網(wǎng)站首頁的網(wǎng)址;選取時間點間隔相同的連續(xù)10個時間點,獲得時間間隔相同的連續(xù)10個時間點;其中,所述連續(xù)10個時間點的時間間隔能夠由用戶指定;在所述連續(xù)10個時間點的每個時間點,對所述指定新聞網(wǎng)站的所有頁面進行爬取,獲得相應的連續(xù)10個時間點的每個時間點的頁面集合;依據(jù)所述每個時間點的頁面集合之間的鏈接關系,針對所述每個時間點的頁面集合,構建所述每個時間點的頁面集合的有向圖,獲得連續(xù)10個時間點的每個時間點的頁面集合的有向圖;對所述連續(xù)10個時間點的每個時間點的頁面集合進行頁面集合的交集操作,獲得相應的交集集合;對所述獲得的相應的交集集合中的每個頁面進行判斷及識別,獲得識別后的穩(wěn)定頁面。
3.根據(jù)權利要求2所述的方法,其特征在于,所述對所述獲得的相應的交集集合中的每個頁面進行判斷及識別,獲得識別后的穩(wěn)定頁面的步驟,包括接收判斷及識別命令,開始對所述獲得的相應的交集集合中的每個頁面進行判斷及識別;通過判斷所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是否相同,來獲得相應的判斷及識別結果;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,則所述頁面集合中的該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面;若所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是不相同的,則所述頁面集合中的該頁面不是穩(wěn)定頁面,繼續(xù)在所述頁面集合中尋找相應的頁面,至到所述新聞網(wǎng)站首頁到所述頁面集合中的頁面的最短途徑是相同的,該頁面為穩(wěn)定頁面,停止尋找過程,該頁面為穩(wěn)定頁面,獲得識別后的穩(wěn)定頁面。
4.根據(jù)權利要求I所述的方法,其特征在于,所述對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器的步驟,包括指定新聞網(wǎng)站首頁的網(wǎng)址;從所述新聞網(wǎng)站中選取相同數(shù)量的新聞頁面及非新聞頁面,獲得相應的相同數(shù)量的新聞頁面及相同數(shù)量的非新聞頁面;其中,所述新聞頁面的數(shù)量及所述非新聞頁面的數(shù)量由用戶指定;采用ISUC算法進行相應的計算,獲得生成的新聞頁面分類器。
5.根據(jù)權利要求I所述的方法,其特征在于,所述對新增頁面進行采集,獲得采集后的新增頁面的步驟,包括接收頁面采集命令,開始對新增頁面進行采集;對每ー個穩(wěn)定頁面進行相應的頁面鏈接進行獲取,獲得針對所述每ー個穩(wěn)定頁面的相應的當前頁面鏈接;將所述獲得的當前頁面鏈接加入到原始頁面鏈接集合中,獲得更新后的頁面鏈接集合;其中,若原始頁面鏈接集合不存在,則更新后的頁面鏈接集合為當前頁面鏈接;依據(jù)所述更新后的頁面鏈接集合中的每個鏈接,獲得所述每個鏈接相應的指向頁面,獲得所述每個鏈接相應的指向頁面;將獲得的所述每個鏈接相應的指向頁面放入原始頁面集合中,獲得采集后的新增頁面;每隔相同的時間間隔執(zhí)行從對每一個穩(wěn)定頁面進行相應的頁面鏈接進行獲取,獲得針對所述每ー個穩(wěn)定頁面的相應的當前頁面鏈接到將獲得的所述每個鏈接相應的指向頁面放入原始頁面集合中,獲得采集后的新增頁面的操作的整個過程;其中,所述每個時間由客戶指定;當執(zhí)行完所有的上述循環(huán)操作后,將每個循環(huán)過程中所獲得的采集后的新增頁面進行匯總,獲得采集后的新增頁面。
6.根據(jù)權利要求I所述的方法,其特征在于,所述對新聞頁面進行識別,獲得識別后的新聞頁面的步驟,包括使用所述新聞頁面分類器,對新頁面集合中的每個頁面中的新聞頁面及非新聞頁面進行識別,獲得相應的頁面中的新聞頁面及相應的頁面的非新聞頁面;將上述新聞頁面放入上述原始新增新聞頁面集合中,獲得更新后的新聞頁面集合;建立所述更新后的新聞頁面集合與新聞頁面的一一對應的關系;依據(jù)所述更新后的新聞頁面集合與新聞頁面的一一對應的關系,由所述更新后的新聞頁面集合,獲得識別后的新聞頁面。
7.ー種新型的中文新聞頁面增量采集的裝置,其特征在于,包括穩(wěn)定頁面獲取裝置,用于獲得一個時間段內不同時間點的新聞網(wǎng)站的頁面鏈接結構;新聞頁面分類器生成裝置,用于通過人工標注的頁面生成相應的新聞頁面識別器;新增頁面采集裝置,用于從新聞網(wǎng)站中采集新增的頁面;新聞頁面識別裝置,用于通過新聞頁面識別器在新增頁面中對新聞頁面進行識別;新聞頁面存儲裝置,用于存儲采集到的新增頁面。
8.根據(jù)權利要求7所述的裝置,其特征在于,所述穩(wěn)定頁面獲取裝置,包括獲取新聞網(wǎng)站的頁面鏈接結構裝置,用于在多個特定時間點獲取新聞網(wǎng)站的頁面鏈接結構;獲取穩(wěn)定頁面裝置,用于通過比較不同時間點的新聞網(wǎng)站的頁面鏈接結構,獲得穩(wěn)定頁面。
9.根據(jù)權利要求8所述的裝置,其特征在于,所述新聞頁面分類器生成裝置,包括新聞頁面采集裝置,用于隨機在所要采集的新聞網(wǎng)站中選取足夠的頁面;標注新聞頁面裝置,用于人工標注所選取的頁面是否為新聞頁面;獲取新聞頁面分類器裝置,用于將標注的頁面作為訓練集,通過機器學習的方法,獲得新聞頁面分類器。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述新增頁面采集裝置,包括頁面采集裝置,用于對新增的頁面進行采集;獲取穩(wěn)定頁面的新增頁面裝置,用于獲取穩(wěn)定頁面指向的新增頁面;重復頁面清除裝置,用于將重復采集的頁面進行清除。
全文摘要
本發(fā)明提供了一種新型的中文新聞頁面增量采集的方法及裝置,其中,一種新型的中文新聞頁面增量采集的方法,包括對穩(wěn)定頁面進行識別,獲得識別后的穩(wěn)定頁面;對新聞頁面分類器進行相應的操作,獲得生成的新聞頁面分類器;對新增頁面進行采集,獲得采集后的新增頁面;對新聞頁面進行識別,獲得識別后的新聞頁面;該方法能夠有效的解決目前中文新聞頁面采集方法中存在的因為重復采集新聞頁面而帶來的信息處理的效率低的缺陷。
文檔編號G06F17/30GK102831135SQ20111042516
公開日2012年12月19日 申請日期2011年12月16日 優(yōu)先權日2011年12月16日
發(fā)明者劉偉 申請人:中國科學技術信息研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1