午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種平行網(wǎng)頁識(shí)別方法及裝置的制造方法

文檔序號(hào):9417350閱讀:440來源:國知局
一種平行網(wǎng)頁識(shí)別方法及裝置的制造方法【專利說明】一種平行網(wǎng)頁識(shí)別方法及裝置[0001]方法領(lǐng)域[0002]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)方法及其裝置,特別涉及一種平行網(wǎng)頁識(shí)別方法及裝置。[0003]背景方法[0004]平行網(wǎng)頁識(shí)別方法有很多,其中有專門針對(duì)評(píng)論網(wǎng)頁或者新聞網(wǎng)頁的方法,但是本發(fā)明所討論的是針對(duì)大部分通用網(wǎng)頁的正文提取方法??偟恼f來,目前主要的網(wǎng)頁正文提取方法有以下幾個(gè)方向:基于DOM的網(wǎng)頁正文提取方法、基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法、基于分塊的網(wǎng)頁正文提取方法及其他網(wǎng)頁正文提取方法。[0005]文檔對(duì)象模型(DocumentObjectModel,D0M)是W3C所制定的標(biāo)準(zhǔn)接口規(guī)范。因?yàn)镈OM節(jié)點(diǎn)是基于樹的層次結(jié)構(gòu)來組織的,因此在建立了樹結(jié)構(gòu)之后,就可以將原本對(duì)網(wǎng)頁的操作轉(zhuǎn)化為通過對(duì)樹的操作。雖然按照W3C組織所制定的標(biāo)準(zhǔn),網(wǎng)頁結(jié)構(gòu)均可以對(duì)應(yīng)地轉(zhuǎn)換成DOM樹的形式,但實(shí)際上許多網(wǎng)頁并沒有遵循該標(biāo)準(zhǔn)。因此在DOM方法使用時(shí)通常都需要預(yù)處理模塊,將網(wǎng)頁最終抽象為一棵DOM樹。[0006]一、基于DOM的網(wǎng)頁正文提取方法[0007]基于DOM的網(wǎng)頁正文提取方法是一種基于DOM的網(wǎng)頁內(nèi)容提取方法,其最初目的是完善PDA應(yīng)用,移除廣告內(nèi)容。DOM方法先將網(wǎng)頁內(nèi)容抽象為對(duì)應(yīng)的對(duì)象,轉(zhuǎn)換為節(jié)點(diǎn)的形式;然后用父子關(guān)系將各節(jié)點(diǎn)組織起來,最終形成一棵樹型結(jié)構(gòu)。[0008]在互聯(lián)網(wǎng)中來自同一網(wǎng)站的網(wǎng)頁結(jié)構(gòu)大部分都是相同的,例如Yahoo新聞網(wǎng)頁〈body〉標(biāo)簽都是由〈iframe〉和<div>兩個(gè)標(biāo)簽組成的,因此可以把這類網(wǎng)頁模板聚為一類。聚類相似的DOM樹需要計(jì)算相似度,計(jì)算兩棵簡(jiǎn)單的DOM樹相似度的步驟是:第一步判斷兩棵樹的根節(jié)點(diǎn)是否相同,若不相同就返回〇;若相同,則繼續(xù)比較兩棵樹的葉子節(jié)點(diǎn)。第二步比較兩棵DOM樹的葉子節(jié)點(diǎn)的名稱和屬性,返回兩棵DOM樹中相同節(jié)點(diǎn)的數(shù)目。[0009]二、基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法[0010]基于統(tǒng)計(jì)的方法主要用于提取新聞?lì)惥W(wǎng)頁的正文。該方法的原理是網(wǎng)頁正文信息只能位于網(wǎng)頁中的〈table〉標(biāo)簽節(jié)點(diǎn)。方法的基本步驟是:第一步去除頁面的噪聲,根據(jù)網(wǎng)頁標(biāo)簽將網(wǎng)頁對(duì)應(yīng)表示成一棵樹;第二步處理每個(gè)〈table〉節(jié)點(diǎn),去除節(jié)點(diǎn)內(nèi)的HTML標(biāo)簽,然后得到不含任何標(biāo)簽的字符串;第三步比較每個(gè)節(jié)點(diǎn)的字符數(shù)量,通常選取字符數(shù)量最大的節(jié)點(diǎn)為網(wǎng)頁正文。該方法優(yōu)點(diǎn)是利用了新聞網(wǎng)頁的特性,通用性好,實(shí)現(xiàn)簡(jiǎn)單,也不需要針對(duì)不同的網(wǎng)頁構(gòu)建不同的模板,不需要樣本學(xué)習(xí),時(shí)間復(fù)雜度低。但是缺點(diǎn)是該算法只適用于網(wǎng)頁中所有正文信息都被放在一個(gè)〈table〉節(jié)點(diǎn)中的情況,對(duì)于有多個(gè)〈table〉正文的網(wǎng)頁,效果并不好。由于現(xiàn)在微博、輕博客等的興起,越來越多的復(fù)雜格式和短文本網(wǎng)頁被產(chǎn)生,這種方法的局限性更加明顯。[0011]現(xiàn)有方法中網(wǎng)頁正文提取比對(duì)效果表:[0012]CN105138517Am~P2/15頁[0013]總的說來,目前在網(wǎng)頁正文提取和網(wǎng)頁相似性計(jì)算的相關(guān)算法都還停留在主要針對(duì)傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁階段,無論是網(wǎng)頁正文提取還是網(wǎng)頁相似性研究,對(duì)移動(dòng)互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的新特點(diǎn)并沒有認(rèn)真考量,主要表現(xiàn)在以下幾個(gè)缺點(diǎn):[0014](1)移動(dòng)互聯(lián)網(wǎng)的網(wǎng)頁結(jié)構(gòu)越來越復(fù)雜,涉及的新興方法也越來越多,傳統(tǒng)的2.2節(jié)所介紹的網(wǎng)頁正文提取算法的局限性越來越明顯。[0015](2)由于短文本網(wǎng)頁內(nèi)容太多,部分文本相似性研究算法的理論基礎(chǔ)不再存在,算法準(zhǔn)確率降低,已經(jīng)不能適應(yīng)大規(guī)模數(shù)據(jù)使用的需求?!?br/>發(fā)明內(nèi)容】[0016]本發(fā)明所要解決的方法問題在于,提供了一種本基于主題相似分塊的平行網(wǎng)頁識(shí)別方法,結(jié)果表明本發(fā)明方法在準(zhǔn)確率上取得較大提升。[0017]為解決上述方法問題,本發(fā)明提供了一種平行網(wǎng)頁識(shí)別方法,包括以下步驟:[0018]步驟A:基于對(duì)于網(wǎng)頁特定標(biāo)簽,判斷網(wǎng)頁是否為正文頁;[0019]步驟B:對(duì)平行網(wǎng)頁的識(shí)別;[0020]所述步驟A進(jìn)一步包括以下子步驟:[0021]步驟一:網(wǎng)頁預(yù)處理,構(gòu)造HTML樹;[0022]步驟二:對(duì)HTML樹剪枝;[0023]步驟三:獲取網(wǎng)頁主題:獲取網(wǎng)頁Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo)簽<meta>的內(nèi)容;對(duì)以上內(nèi)容進(jìn)行分詞處理,去掉虛詞、停用詞,最后得到只含有實(shí)詞的序列Stitle;[0024]步驟四:提取分塊內(nèi)的字符串內(nèi)容;[0025]步驟五:計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離;[0026]步驟六:比較編輯距離L和max(p,q)。[0027]所述步驟二可以進(jìn)一步包括以下子步驟:按照〈table〉標(biāo)簽進(jìn)行分塊,將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。[0028]所述步驟五可以進(jìn)一步包括:對(duì)中文進(jìn)行分詞,使用的Levenshtein距離如式(2)和式⑶所示:[0029][0031]所述步驟B還可以進(jìn)一步包括:特征信息提取子步驟和支持向量機(jī)分類子步驟;[0032]所述特征信息提取子步驟進(jìn)一步包括:[0033]建立特征信息:特征信息包括網(wǎng)頁HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文本句數(shù)信息和數(shù)字序列信息;[0034]將HTML標(biāo)簽按其在網(wǎng)頁布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無關(guān)標(biāo)簽二類標(biāo)簽:[0035]結(jié)構(gòu)標(biāo)簽:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;[0036]格式標(biāo)簽:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;[0037]無關(guān)標(biāo)簽:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;計(jì)算結(jié)構(gòu)對(duì)稱性時(shí)刪去。[0038]所述步驟B也可以進(jìn)一步包括:特征信息提取子步驟和支持向量機(jī)分類子步驟;[0039]采用改進(jìn)的編輯距離計(jì)算分類的HTML標(biāo)簽序列的相似度:[0040]編輯距離為兩個(gè)字符串之間,由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作次數(shù);[0041]編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符;[0042]根據(jù)標(biāo)簽的分類特性,改進(jìn)的編輯距離定義為:一個(gè)字符串的不同類型標(biāo)簽通過刪除、插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類型標(biāo)簽最少操作代價(jià)。[0043]為解決上述技術(shù)問題,本發(fā)明還提供了一種平行網(wǎng)頁識(shí)別系統(tǒng),包括以下模塊:[0044]模塊A:用于基于對(duì)于網(wǎng)頁特定標(biāo)簽,判斷網(wǎng)頁是否為正文頁;[0045]模塊B:用于對(duì)平行網(wǎng)頁的識(shí)別;[0046]所述模塊A進(jìn)一步包括以下子模塊:[0047]預(yù)處理子模塊:用于對(duì)網(wǎng)頁預(yù)處理,構(gòu)造HTML樹;[0048]剪枝子模塊:用于對(duì)HTML樹剪枝;[0049]獲取主題子模塊:用于獲取網(wǎng)頁主題:獲取網(wǎng)頁Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo)簽<meta>的內(nèi)容;對(duì)以上內(nèi)容進(jìn)行分詞處理,去掉虛詞、停用詞,最后得到只含有實(shí)詞的序列Stitle;[0050]提取分塊子模塊:用于提取分塊內(nèi)的字符串內(nèi)容;[0051]計(jì)算距離子模塊:用于計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離;[0052]比較距離子模塊:用于比較編輯距離L和max(p,q)。[0053]所述剪枝子模塊可以進(jìn)一步用于:按照〈table〉標(biāo)簽進(jìn)行分塊,將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。[0054]所述計(jì)算距離子模塊可以進(jìn)一步用于:對(duì)中文進(jìn)行分詞,使用的Levenshtein距離如式⑵和式(3)所示:[0055][0057]所述模塊B可以進(jìn)一步包括以下子模塊:特征信息提取子模塊和支持向量機(jī)分類子模塊;[0058]所述特征信息提取子模塊用于:[0059]建立特征信息:特征信息包括網(wǎng)頁HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文本句數(shù)信息和數(shù)字序列信息;[0060]將HTML標(biāo)簽按其在網(wǎng)頁布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無關(guān)標(biāo)簽二類標(biāo)簽:[0061]結(jié)構(gòu)標(biāo)簽:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;[0062]格式標(biāo)簽:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;[0063]無關(guān)標(biāo)簽:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;計(jì)算結(jié)構(gòu)對(duì)稱性時(shí)刪去。[0064]所述模塊B可以進(jìn)一步包括以下子模塊:特征信息提取子模塊和支持向量機(jī)分類子模塊;[0065]采用改進(jìn)的編輯距離計(jì)算分類的HTML標(biāo)簽序列的相似度:[0066]編輯距離為兩個(gè)字符串之間,由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作次數(shù);[0067]編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符;[0068]根據(jù)標(biāo)簽的分類特性,改進(jìn)的編輯距離定義為:一個(gè)字符串的不同類型標(biāo)簽通過刪除、插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類型標(biāo)簽最少操作代價(jià)。[0069]本發(fā)明有益的方法效果在于:本發(fā)明平行網(wǎng)頁識(shí)別方法對(duì)比傳統(tǒng)的網(wǎng)頁分塊算法和基于主題相似分塊的網(wǎng)頁正文提取方法,具有以下優(yōu)點(diǎn):[0070](1)能提取正文較短的網(wǎng)頁,內(nèi)容的長(zhǎng)短并不會(huì)影響選擇的正確性。因?yàn)闊o論正文長(zhǎng)短都會(huì)參與計(jì)算,都不會(huì)被忽略。[0071](2)對(duì)處理〈table〉嵌套的復(fù)雜的網(wǎng)頁。因?yàn)闃?gòu)建了一棵HTML樹,可以保證每一個(gè)〈table〉標(biāo)簽都能得到一致的處理。[0072](3)降低了運(yùn)算量。不需要進(jìn)行簇的分析,聚類是非常耗費(fèi)時(shí)間的,不需要計(jì)算塊的熵,當(dāng)前第1頁1 2 3 4 
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1