午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法及系統(tǒng)的制作方法

文檔序號(hào):6492263閱讀:135來(lái)源:國(guó)知局
一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法及系統(tǒng)的制作方法【專利摘要】本申請(qǐng)公開(kāi)了一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法及系統(tǒng),所述方法包括:獲得一論壇網(wǎng)頁(yè);將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容?!緦@f(shuō)明】一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法及系統(tǒng)【
技術(shù)領(lǐng)域
】[0001]本申請(qǐng)涉及計(jì)算機(jī)互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法及系統(tǒng)。【
背景技術(shù)
】[0002]隨著國(guó)際互聯(lián)網(wǎng)的日益普及和迅猛發(fā)展,論壇已成為網(wǎng)絡(luò)上重要的數(shù)據(jù)資源。由于論壇為人們提供了大量關(guān)于各種題材的非常有價(jià)值的知識(shí)和信息,越來(lái)越多的研究工作將利用從論壇數(shù)據(jù)中抽取信息并建立各種應(yīng)用。[0003]為了有效利用論壇數(shù)據(jù),大部分應(yīng)用都是首先從論壇網(wǎng)頁(yè)中抽取結(jié)構(gòu)化的數(shù)據(jù),再進(jìn)一步利用這些數(shù)據(jù)實(shí)現(xiàn)各種功能。[0004]目前,論壇信息的抽取方法多是基于規(guī)則,一般而言,都是針對(duì)某一網(wǎng)站指定規(guī)則并以此構(gòu)造包裝器,而包裝器是一種軟件構(gòu)件,主要通過(guò)以下兩種途徑來(lái)進(jìn)行構(gòu)建:[0005]一、知識(shí)工程的途徑,即通過(guò)領(lǐng)域?qū)<襾?lái)制定抽取規(guī)則;[0006]二、采用機(jī)器學(xué)習(xí)的途徑自動(dòng)構(gòu)建包裝器,根據(jù)標(biāo)注樣板,機(jī)器學(xué)習(xí)算法通過(guò)自動(dòng)學(xué)習(xí)來(lái)建立抽取模型。[0007]本申請(qǐng)人:在實(shí)現(xiàn)本申請(qǐng)實(shí)施例的過(guò)程中,發(fā)現(xiàn)上述手段至少存在如下問(wèn)題:[0008]一、通過(guò)領(lǐng)域?qū)<襾?lái)制定抽取規(guī)則需要耗費(fèi)大量的人力,成本很高;[0009]二、采用機(jī)器學(xué)習(xí)的途徑時(shí),需要手工標(biāo)注樣本。[0010]上述利用包裝器的信息抽取技術(shù)都存在一定程度上依靠人工輔助,自動(dòng)化程度比較低,同時(shí),由于論壇網(wǎng)頁(yè)形式多樣且不斷更新,因此,包裝器的維護(hù)成本較高,適用性差,不適合大規(guī)模應(yīng)用?!?br/>發(fā)明內(nèi)容】[0011]本申請(qǐng)?zhí)峁┮环N抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法,用以解決現(xiàn)有技術(shù)中存在信息抽取自動(dòng)化較低和適用性差的問(wèn)題。[0012]一方面,通過(guò)本申請(qǐng)的一個(gè)實(shí)施例,提供如下技術(shù)方案:[0013]一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法,包括:[0014]獲得一論壇網(wǎng)頁(yè);[0015]將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);[0016]一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;[0017]根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);[0018]基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0019]可選的,所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。[0020]可選的,所述將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),具體包括:[0021]刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;[0022]將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù)。[0023]可選的,所述基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容,具體包括:[0024]過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同部分;[0025]基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0026]可選的,所述在根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)之前還包括:[0027]判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;[0028]當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。[0029]可選的,所述預(yù)設(shè)的頻繁度和支持度具體為:最小頻繁度和最小支持度。[0030]另一方面,通過(guò)本申請(qǐng)的另一實(shí)施例提供了如下技術(shù)方案:[0031]一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的系統(tǒng),所述系統(tǒng)包括:[0032]獲得模塊,用于獲得一論壇網(wǎng)頁(yè);[0033]轉(zhuǎn)換模塊,用于將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);[0034]生成模塊,用于一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;[0035]確定模塊,用于根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);[0036]提取模塊,用于基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0037]可選的,所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。[0038]可選的,所述轉(zhuǎn)換模塊,具體包括:[0039]刪除單元,用于刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;[0040]轉(zhuǎn)換單元,用于將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù)。[0041]可選的,所述提取模塊,具體包括:[0042]過(guò)濾單元,用于過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同的部分;[0043]提取單元,用于基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0044]可選的,所述系統(tǒng)還包括:[0045]判斷模塊,用于判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;[0046]剪枝模塊,用于當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。[0047]上述技術(shù)方案中的一個(gè)或多個(gè)技術(shù)方案,具有如下技術(shù)效果或優(yōu)點(diǎn):[0048]一、通過(guò)采用本申請(qǐng)?zhí)峁┑某槿≌搲W(wǎng)頁(yè)中帖子內(nèi)容的方法,解決了現(xiàn)有技術(shù)中對(duì)帖子內(nèi)容抽取存在自動(dòng)化程度低,系統(tǒng)適用性差的缺陷,進(jìn)而具有較廣的應(yīng)用范圍。[0049]二、通過(guò)抽取出帖子的最大頻繁模式,定位到帖子內(nèi)容節(jié)點(diǎn)所在頻繁模式樹(shù)中的位置,再通過(guò)最大公共子樹(shù)動(dòng)態(tài)規(guī)劃匹配算法,能夠快速、準(zhǔn)確、完整的抽取出帖子內(nèi)容中的所有主、回帖內(nèi)容、發(fā)帖時(shí)間、作者、及樓層信息等相關(guān)元數(shù)據(jù)?!緦@綀D】【附圖說(shuō)明】[0050]圖1為本申請(qǐng)實(shí)施例中抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法流程圖;[0051]圖2為本申請(qǐng)實(shí)施例中頻繁模式樹(shù)的示意圖;[0052]圖3為本申請(qǐng)實(shí)施例中網(wǎng)頁(yè)帖子內(nèi)容結(jié)構(gòu)圖;[0053]圖4為本申請(qǐng)實(shí)施例中抽取網(wǎng)頁(yè)論壇中帖子內(nèi)容的系統(tǒng)結(jié)構(gòu)圖?!揪唧w實(shí)施方式】[0054]本申請(qǐng)根據(jù)采集到的論壇帖子頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,抽取出帖子頁(yè)的最大頻繁模式,再通過(guò)最大頻繁模式計(jì)算出帖子信息內(nèi)容所在的節(jié)點(diǎn),基于最大公共子樹(shù)算法,過(guò)濾掉帖子之間相同的部分,進(jìn)而實(shí)現(xiàn)抽取出帖子內(nèi)容及元數(shù)據(jù),同時(shí),根據(jù)本申請(qǐng)?zhí)峁┑姆椒ㄟ€可以抽取出同一論壇中其他帖子的內(nèi)容及元數(shù)據(jù)。[0055]下面結(jié)合各個(gè)附圖對(duì)本申請(qǐng)實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理、【具體實(shí)施方式】及其對(duì)應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)的闡述。[0056]請(qǐng)參考圖1,為本申請(qǐng)實(shí)施例中抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法流程圖;[0057]步驟100,獲得一論壇網(wǎng)頁(yè);[0058]在具體的實(shí)施過(guò)程中,抽取網(wǎng)頁(yè)中帖子內(nèi)容時(shí),首先建立采集頁(yè)任務(wù),并以列表頁(yè)的形式保存,基于此采集任務(wù)的間隔,自動(dòng)的從列表頁(yè)中的URL獲得相應(yīng)的網(wǎng)頁(yè)地址,比如想要采集梁靜苑百度貼吧中的帖子內(nèi)容,則其采集任務(wù)的地址則為:http://tieba.baidu.com/f?kw=%Cl%BA%BE%B2%C8%E3#0[0059]步驟110,將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù);[0060]在具體的實(shí)施過(guò)程中,基于前述步驟110中的網(wǎng)頁(yè)地址,獲取網(wǎng)頁(yè)地址對(duì)應(yīng)的論壇網(wǎng)頁(yè)內(nèi)容,先刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;具體來(lái)講,所述無(wú)用的網(wǎng)頁(yè)標(biāo)簽包括:head節(jié)點(diǎn)、注釋節(jié)點(diǎn)、script等腳本節(jié)點(diǎn)、input節(jié)點(diǎn)、form節(jié)點(diǎn)、select節(jié)點(diǎn)、textarea節(jié)點(diǎn)、style節(jié)點(diǎn)、字體節(jié)點(diǎn)等。本領(lǐng)域所屬的技術(shù)人員根據(jù)實(shí)際的應(yīng)用情況,其他相同或相似的網(wǎng)頁(yè)標(biāo)簽都屬于本申請(qǐng)保護(hù)的范圍,此處不在贅述。[0061]再將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬與所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);[0062]步驟120,一一對(duì)應(yīng)地位所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;[0063]首先,用頻繁模式樹(shù)給出WEB數(shù)據(jù)及頻繁模式的定義,對(duì)于某個(gè)集合A,設(shè)|A|表示A的基數(shù)(大小),設(shè)L={L0,L1,L2...LJ表示對(duì)應(yīng)于半結(jié)構(gòu)化數(shù)據(jù)中屬性或者用來(lái)標(biāo)記文本的有限字母表。[0064]建立在L上的頻繁模式樹(shù),簡(jiǎn)稱頻繁樹(shù),是一個(gè)六元組OT={V,E,B,L,M,r}。其中V是一個(gè)有限的節(jié)點(diǎn)集合,E=VXV表示(parent,child),E滿足的雙親-孩子關(guān)系。B表示滿足(可能間接)的兄弟關(guān)系。頻繁樹(shù)中的任意一個(gè)節(jié)點(diǎn)都可以通過(guò)一條路徑到達(dá)另一個(gè)節(jié)點(diǎn),稱該路徑為頻繁模式。[0065]下面結(jié)合圖2,頻繁模式的結(jié)構(gòu)圖作具體描述;[0066]如圖2所示,(HTML(HEAD(TITLE))(BODY(TABLE)(DIV))),此模式表示了網(wǎng)頁(yè)頻繁樹(shù)中的一個(gè)頻繁模式,這棵樹(shù)的根節(jié)點(diǎn)是〈HTML〉標(biāo)簽,并且所有的內(nèi)容節(jié)點(diǎn)(如:文本、圖片等)都是這棵樹(shù)的葉節(jié)點(diǎn)。每一個(gè)內(nèi)部節(jié)點(diǎn)代表一對(duì)標(biāo)簽(開(kāi)始的標(biāo)簽和結(jié)束的標(biāo)簽),或者僅代表一個(gè)標(biāo)簽(該標(biāo)簽沒(méi)有對(duì)應(yīng)的結(jié)束的標(biāo)簽),根標(biāo)簽和內(nèi)部的節(jié)點(diǎn)統(tǒng)稱為標(biāo)簽節(jié)點(diǎn)。[0067]通過(guò)對(duì)步驟110中生成的DOM樹(shù)中的每一個(gè)節(jié)點(diǎn)進(jìn)行前序遍歷,對(duì)應(yīng)的把DOM樹(shù)中每一個(gè)節(jié)點(diǎn)進(jìn)行前序遍歷,將每一個(gè)節(jié)點(diǎn)轉(zhuǎn)換成頻繁模式。[0068]需要說(shuō)明的是,一個(gè)頻繁模式包含一系列的路徑節(jié)點(diǎn),根據(jù)對(duì)標(biāo)簽路徑的不同定義,每一個(gè)路徑節(jié)點(diǎn)的構(gòu)成元素是不同的。[0069]步驟130,根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);[0070]所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。[0071]另外,在此步驟之前,即在根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)之前還包括:[0072]判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;[0073]當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。具體而言,所述預(yù)設(shè)的頻繁度和支持度具體為:最小頻繁度和最小支持度。[0074]當(dāng)進(jìn)行剪枝處理后,進(jìn)一步的避免了產(chǎn)出無(wú)用的模式,過(guò)濾完成后,開(kāi)始進(jìn)行擴(kuò)展,擴(kuò)展時(shí)按照頻繁模式樹(shù)的層次進(jìn)行擴(kuò)展,即查看這些模式是否還有其他兄弟節(jié)點(diǎn),如果有則在此頻繁模式基礎(chǔ)上加入兄弟節(jié)點(diǎn),擴(kuò)展出新的頻繁模式。在擴(kuò)展兄弟節(jié)點(diǎn)后,再查看此模式是否有孩子節(jié)點(diǎn),如果有則在此頻繁模式基礎(chǔ)上加入孩子節(jié)點(diǎn),擴(kuò)展出新的頻繁模式。每擴(kuò)展出一個(gè)新的頻繁模式,就把新找到的模式以及位置等其它相關(guān)信息插入到隊(duì)列中。一直循環(huán)此步驟直到擴(kuò)展完隊(duì)列中的所有模式。[0075]步驟140,基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0076]在具體的實(shí)施過(guò)程中,本步驟包括以下過(guò)程:[0077]過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同部分;[0078]基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中。[0079]根據(jù)論壇網(wǎng)頁(yè)格式可以知道,同一論壇往往具有相似的格式,所以根據(jù)頻繁模塊抽取出的最大頻繁模式,必然是論壇主從帖所在的分支所生成的模式,比如百度貼吧主貼所形成的模式(div(a)(div(a)(table(tbody(tr)))(div(div))))。此模式就是論壇信息區(qū)域所在的分支。論壇網(wǎng)頁(yè)內(nèi)容區(qū)域的識(shí)別就是要找到網(wǎng)頁(yè)中有大量相似結(jié)構(gòu)的區(qū)域,對(duì)應(yīng)于網(wǎng)頁(yè)頻繁樹(shù),就是找到最常出現(xiàn)的頻繁模式,此模式不一定是包含內(nèi)容數(shù)據(jù)的區(qū)域,但一定是頻繁樹(shù)中包含內(nèi)容數(shù)據(jù)區(qū)域節(jié)點(diǎn)的某一個(gè)子孫節(jié)點(diǎn)形成的頻繁模式。而包含了數(shù)據(jù)的區(qū)域,就在其附近。所以找到此頻繁模式就可以進(jìn)行內(nèi)容數(shù)據(jù)區(qū)域定位并進(jìn)行數(shù)據(jù)抽取。[0080]請(qǐng)結(jié)合圖3,為本申請(qǐng)實(shí)施例中網(wǎng)頁(yè)帖子內(nèi)容結(jié)構(gòu)圖;[0081]如圖3所示,主從貼有著相同的結(jié)構(gòu),基本上除了帖子內(nèi)容信息不同外,其它結(jié)構(gòu)基本相同。所以當(dāng)找到出現(xiàn)次數(shù)最多的頻繁模式后,就可以利用最大公共子樹(shù)動(dòng)態(tài)規(guī)劃算法,找出子樹(shù)中完全一樣的結(jié)構(gòu)(文本,tag都一樣)。當(dāng)剔除掉相同部分后,剩余的部分就是從主從貼的內(nèi)容以及內(nèi)容對(duì)應(yīng)的元數(shù)據(jù)。提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0082]下面請(qǐng)參考圖4,為本申請(qǐng)實(shí)施例中抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法流程圖;[0083]如圖4所示,所述系統(tǒng)包括:[0084]獲得模塊,用于獲得一論壇網(wǎng)頁(yè);[0085]轉(zhuǎn)換模塊,用于將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);[0086]所述轉(zhuǎn)換模塊具體包括:[0087]刪除單元,用于刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;[0088]轉(zhuǎn)換單元,用于將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù)。[0089]生成模塊,用于一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;[0090]確定模塊,用于根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。[0091]提取模塊,用于基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0092]所述提取模塊具體包括:[0093]過(guò)濾單元,用于過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同的部分;[0094]提取單元,用于基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。[0095]所述系統(tǒng)還包括:[0096]判斷模塊,用于判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;[0097]剪枝模塊,用于當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。所述預(yù)設(shè)的頻繁度和支持度具體為:最小頻繁度和最小支持度。[0098]通過(guò)本申請(qǐng)的一個(gè)或多個(gè)實(shí)施例,可以實(shí)現(xiàn)如下技術(shù)效果:[0099]一、通過(guò)采用本申請(qǐng)?zhí)峁┑某槿≌搲W(wǎng)頁(yè)中帖子內(nèi)容的方法,解決了現(xiàn)有技術(shù)中對(duì)帖子內(nèi)容抽取存在自動(dòng)化程度低,系統(tǒng)適用性差的缺陷,進(jìn)而具有較廣的應(yīng)用范圍。[0100]二、通過(guò)抽取出帖子的最大頻繁模式,定位到帖子內(nèi)容節(jié)點(diǎn)所在頻繁模式樹(shù)中的位置,再通過(guò)最大公共子樹(shù)動(dòng)態(tài)規(guī)劃匹配算法,能夠快速、準(zhǔn)確、完整的抽取出帖子內(nèi)容中的所有主、回帖內(nèi)容、發(fā)帖時(shí)間、作者、及樓層信息等相關(guān)元數(shù)據(jù)。[0101]盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。[0102]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)?!緳?quán)利要求】1.一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的方法,其特征在于,包括:獲得一論壇網(wǎng)頁(yè);將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。2.如權(quán)利要求1所述的方法,其特征在于,所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。3.如權(quán)利要求1所述的方法,其特征在于,所述將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),具體包括:刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù)。4.如權(quán)利要求2所述的方法,其特征在于,所述基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容,具體包括:過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同部分;基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。5.如權(quán)利要求2所述的方法,其特征在于,所述在根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)之前還包括:判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。6.如權(quán)利要求5所述的方法,其特征在于,所述預(yù)設(shè)的頻繁度和支持度具體為:最小頻繁度和最小支持度。7.一種抽取論壇網(wǎng)頁(yè)中帖子內(nèi)容的系統(tǒng),其特征在于,所述系統(tǒng)包括:獲得模塊,用于獲得一論壇網(wǎng)頁(yè);轉(zhuǎn)換模塊,用于將所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù),其中,所述DOM樹(shù)至少包括一根節(jié)點(diǎn)及從屬于所述根節(jié)點(diǎn)的至少一個(gè)子節(jié)點(diǎn);生成模塊,用于一一對(duì)應(yīng)地為所述根節(jié)點(diǎn)及所述至少一個(gè)子節(jié)點(diǎn)生成頻繁模式;確定模塊,用于根據(jù)所述頻繁模式中一符合預(yù)設(shè)條件的頻繁模式,確定出與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn);提取模塊,用于基于一預(yù)設(shè)的公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述符合預(yù)設(shè)條件的頻繁模式具體為:最大頻繁模式;所述預(yù)設(shè)的公共子樹(shù)算法具體為:最大公共子樹(shù)算法。9.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述轉(zhuǎn)換模塊,具體包括:刪除單元,用于刪除所述論壇網(wǎng)頁(yè)中無(wú)用的網(wǎng)頁(yè)標(biāo)簽;轉(zhuǎn)換單元,用于將無(wú)用的網(wǎng)頁(yè)標(biāo)簽刪除了的所述論壇網(wǎng)頁(yè)轉(zhuǎn)換成DOM樹(shù)。10.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述提取模塊,具體包括:過(guò)濾單元,用于過(guò)濾掉所述論壇網(wǎng)頁(yè)中帖子之間相同的部分;提取單元,用于基于所述最大公共子樹(shù)算法,從所述與所述論壇網(wǎng)頁(yè)中信息內(nèi)容所對(duì)應(yīng)的節(jié)點(diǎn)中提取所述論壇網(wǎng)頁(yè)中的信息內(nèi)容。11.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:判斷模塊,用于判斷所述頻繁模式中每個(gè)頻繁模式的頻繁度與支持度是否大于等于預(yù)設(shè)的頻繁度和支持度;剪枝模塊,用于當(dāng)一頻繁模式的頻繁度與支持度小于預(yù)設(shè)的頻繁度和支持度時(shí),對(duì)所述頻繁模式進(jìn)行剪枝處理。12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述預(yù)設(shè)的頻繁度和支持度具體為:最小頻繁度和最小支持度?!ぁ疚臋n編號(hào)】G06F17/30GK103853770SQ201210511269【公開(kāi)日】2014年6月11日申請(qǐng)日期:2012年12月3日優(yōu)先權(quán)日:2012年12月3日【發(fā)明者】張濤,楊建武,于曉明申請(qǐng)人:北大方正集團(tuán)有限公司,北京大學(xué),北京北大方正電子有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1