一種平行網(wǎng)頁識(shí)別方法及裝置的制造方法

文檔序號(hào)：9417350閱讀：440來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種平行網(wǎng)頁識(shí)別方法及裝置的制造方法【專利說明】一種平行網(wǎng)頁識(shí)別方法及裝置[0001]方法領(lǐng)域[0002]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)方法及其裝置，特別涉及一種平行網(wǎng)頁識(shí)別方法及裝置。[0003]背景方法[0004]平行網(wǎng)頁識(shí)別方法有很多，其中有專門針對(duì)評(píng)論網(wǎng)頁或者新聞網(wǎng)頁的方法，但是本發(fā)明所討論的是針對(duì)大部分通用網(wǎng)頁的正文提取方法?？偟恼f來，目前主要的網(wǎng)頁正文提取方法有以下幾個(gè)方向：基于DOM的網(wǎng)頁正文提取方法、基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法、基于分塊的網(wǎng)頁正文提取方法及其他網(wǎng)頁正文提取方法。[0005]文檔對(duì)象模型（DocumentObjectModel，D0M)是W3C所制定的標(biāo)準(zhǔn)接口規(guī)范。因?yàn)镈OM節(jié)點(diǎn)是基于樹的層次結(jié)構(gòu)來組織的，因此在建立了樹結(jié)構(gòu)之后，就可以將原本對(duì)網(wǎng)頁的操作轉(zhuǎn)化為通過對(duì)樹的操作。雖然按照W3C組織所制定的標(biāo)準(zhǔn)，網(wǎng)頁結(jié)構(gòu)均可以對(duì)應(yīng)地轉(zhuǎn)換成DOM樹的形式，但實(shí)際上許多網(wǎng)頁并沒有遵循該標(biāo)準(zhǔn)。因此在DOM方法使用時(shí)通常都需要預(yù)處理模塊，將網(wǎng)頁最終抽象為一棵DOM樹。[0006]一、基于DOM的網(wǎng)頁正文提取方法[0007]基于DOM的網(wǎng)頁正文提取方法是一種基于DOM的網(wǎng)頁內(nèi)容提取方法，其最初目的是完善PDA應(yīng)用，移除廣告內(nèi)容。DOM方法先將網(wǎng)頁內(nèi)容抽象為對(duì)應(yīng)的對(duì)象，轉(zhuǎn)換為節(jié)點(diǎn)的形式；然后用父子關(guān)系將各節(jié)點(diǎn)組織起來，最終形成一棵樹型結(jié)構(gòu)。[0008]在互聯(lián)網(wǎng)中來自同一網(wǎng)站的網(wǎng)頁結(jié)構(gòu)大部分都是相同的，例如Yahoo新聞網(wǎng)頁〈body〉標(biāo)簽都是由〈iframe〉和<div>兩個(gè)標(biāo)簽組成的，因此可以把這類網(wǎng)頁模板聚為一類。聚類相似的DOM樹需要計(jì)算相似度，計(jì)算兩棵簡(jiǎn)單的DOM樹相似度的步驟是：第一步判斷兩棵樹的根節(jié)點(diǎn)是否相同，若不相同就返回〇;若相同，則繼續(xù)比較兩棵樹的葉子節(jié)點(diǎn)。第二步比較兩棵DOM樹的葉子節(jié)點(diǎn)的名稱和屬性，返回兩棵DOM樹中相同節(jié)點(diǎn)的數(shù)目。[0009]二、基于統(tǒng)計(jì)的網(wǎng)頁正文提取方法[0010]基于統(tǒng)計(jì)的方法主要用于提取新聞?lì)惥W(wǎng)頁的正文。該方法的原理是網(wǎng)頁正文信息只能位于網(wǎng)頁中的〈table〉標(biāo)簽節(jié)點(diǎn)。方法的基本步驟是：第一步去除頁面的噪聲，根據(jù)網(wǎng)頁標(biāo)簽將網(wǎng)頁對(duì)應(yīng)表示成一棵樹；第二步處理每個(gè)〈table〉節(jié)點(diǎn)，去除節(jié)點(diǎn)內(nèi)的HTML標(biāo)簽，然后得到不含任何標(biāo)簽的字符串；第三步比較每個(gè)節(jié)點(diǎn)的字符數(shù)量，通常選取字符數(shù)量最大的節(jié)點(diǎn)為網(wǎng)頁正文。該方法優(yōu)點(diǎn)是利用了新聞網(wǎng)頁的特性，通用性好，實(shí)現(xiàn)簡(jiǎn)單，也不需要針對(duì)不同的網(wǎng)頁構(gòu)建不同的模板，不需要樣本學(xué)習(xí)，時(shí)間復(fù)雜度低。但是缺點(diǎn)是該算法只適用于網(wǎng)頁中所有正文信息都被放在一個(gè)〈table〉節(jié)點(diǎn)中的情況，對(duì)于有多個(gè)〈table〉正文的網(wǎng)頁，效果并不好。由于現(xiàn)在微博、輕博客等的興起，越來越多的復(fù)雜格式和短文本網(wǎng)頁被產(chǎn)生，這種方法的局限性更加明顯。[0011]現(xiàn)有方法中網(wǎng)頁正文提取比對(duì)效果表：[0012]CN105138517Am~P2/15頁[0013]總的說來，目前在網(wǎng)頁正文提取和網(wǎng)頁相似性計(jì)算的相關(guān)算法都還停留在主要針對(duì)傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)頁階段，無論是網(wǎng)頁正文提取還是網(wǎng)頁相似性研究，對(duì)移動(dòng)互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的新特點(diǎn)并沒有認(rèn)真考量，主要表現(xiàn)在以下幾個(gè)缺點(diǎn)：[0014](1)移動(dòng)互聯(lián)網(wǎng)的網(wǎng)頁結(jié)構(gòu)越來越復(fù)雜，涉及的新興方法也越來越多，傳統(tǒng)的2.2節(jié)所介紹的網(wǎng)頁正文提取算法的局限性越來越明顯。[0015](2)由于短文本網(wǎng)頁內(nèi)容太多，部分文本相似性研究算法的理論基礎(chǔ)不再存在，算法準(zhǔn)確率降低，已經(jīng)不能適應(yīng)大規(guī)模數(shù)據(jù)使用的需求?！?br/>發(fā)明內(nèi)容】[0016]本發(fā)明所要解決的方法問題在于，提供了一種本基于主題相似分塊的平行網(wǎng)頁識(shí)別方法，結(jié)果表明本發(fā)明方法在準(zhǔn)確率上取得較大提升。[0017]為解決上述方法問題，本發(fā)明提供了一種平行網(wǎng)頁識(shí)別方法，包括以下步驟：[0018]步驟A:基于對(duì)于網(wǎng)頁特定標(biāo)簽，判斷網(wǎng)頁是否為正文頁；[0019]步驟B:對(duì)平行網(wǎng)頁的識(shí)別；[0020]所述步驟A進(jìn)一步包括以下子步驟：[0021]步驟一：網(wǎng)頁預(yù)處理，構(gòu)造HTML樹；[0022]步驟二：對(duì)HTML樹剪枝；[0023]步驟三：獲取網(wǎng)頁主題：獲取網(wǎng)頁Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo)簽<meta>的內(nèi)容；對(duì)以上內(nèi)容進(jìn)行分詞處理，去掉虛詞、停用詞，最后得到只含有實(shí)詞的序列Stitle；[0024]步驟四：提取分塊內(nèi)的字符串內(nèi)容；[0025]步驟五：計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離；[0026]步驟六：比較編輯距離L和max(p，q)。[0027]所述步驟二可以進(jìn)一步包括以下子步驟：按照〈table〉標(biāo)簽進(jìn)行分塊，將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。[0028]所述步驟五可以進(jìn)一步包括：對(duì)中文進(jìn)行分詞，使用的Levenshtein距離如式（2)和式⑶所示：[0029][0031]所述步驟B還可以進(jìn)一步包括：特征信息提取子步驟和支持向量機(jī)分類子步驟；[0032]所述特征信息提取子步驟進(jìn)一步包括：[0033]建立特征信息：特征信息包括網(wǎng)頁HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文本句數(shù)信息和數(shù)字序列信息；[0034]將HTML標(biāo)簽按其在網(wǎng)頁布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無關(guān)標(biāo)簽二類標(biāo)簽：[0035]結(jié)構(gòu)標(biāo)簽：blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;[0036]格式標(biāo)簽：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;[0037]無關(guān)標(biāo)簽：applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;計(jì)算結(jié)構(gòu)對(duì)稱性時(shí)刪去。[0038]所述步驟B也可以進(jìn)一步包括：特征信息提取子步驟和支持向量機(jī)分類子步驟；[0039]采用改進(jìn)的編輯距離計(jì)算分類的HTML標(biāo)簽序列的相似度：[0040]編輯距離為兩個(gè)字符串之間，由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作次數(shù)；[0041]編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符；[0042]根據(jù)標(biāo)簽的分類特性，改進(jìn)的編輯距離定義為：一個(gè)字符串的不同類型標(biāo)簽通過刪除、插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類型標(biāo)簽最少操作代價(jià)。[0043]為解決上述技術(shù)問題，本發(fā)明還提供了一種平行網(wǎng)頁識(shí)別系統(tǒng)，包括以下模塊：[0044]模塊A:用于基于對(duì)于網(wǎng)頁特定標(biāo)簽，判斷網(wǎng)頁是否為正文頁；[0045]模塊B:用于對(duì)平行網(wǎng)頁的識(shí)別；[0046]所述模塊A進(jìn)一步包括以下子模塊：[0047]預(yù)處理子模塊：用于對(duì)網(wǎng)頁預(yù)處理，構(gòu)造HTML樹；[0048]剪枝子模塊：用于對(duì)HTML樹剪枝；[0049]獲取主題子模塊：用于獲取網(wǎng)頁主題：獲取網(wǎng)頁Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo)簽<meta>的內(nèi)容；對(duì)以上內(nèi)容進(jìn)行分詞處理，去掉虛詞、停用詞，最后得到只含有實(shí)詞的序列Stitle;[0050]提取分塊子模塊：用于提取分塊內(nèi)的字符串內(nèi)容；[0051]計(jì)算距離子模塊：用于計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離；[0052]比較距離子模塊：用于比較編輯距離L和max(p，q)。[0053]所述剪枝子模塊可以進(jìn)一步用于：按照〈table〉標(biāo)簽進(jìn)行分塊，將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。[0054]所述計(jì)算距離子模塊可以進(jìn)一步用于：對(duì)中文進(jìn)行分詞，使用的Levenshtein距離如式⑵和式（3)所示：[0055][0057]所述模塊B可以進(jìn)一步包括以下子模塊：特征信息提取子模塊和支持向量機(jī)分類子模塊；[0058]所述特征信息提取子模塊用于：[0059]建立特征信息：特征信息包括網(wǎng)頁HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文本句數(shù)信息和數(shù)字序列信息；[0060]將HTML標(biāo)簽按其在網(wǎng)頁布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無關(guān)標(biāo)簽二類標(biāo)簽：[0061]結(jié)構(gòu)標(biāo)簽：blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、toWe、tbody、td、tfoot、th、thead、tr、ul;[0062]格式標(biāo)簽：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u;[0063]無關(guān)標(biāo)簽：applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、isindex、label、legend;計(jì)算結(jié)構(gòu)對(duì)稱性時(shí)刪去。[0064]所述模塊B可以進(jìn)一步包括以下子模塊：特征信息提取子模塊和支持向量機(jī)分類子模塊；[0065]采用改進(jìn)的編輯距離計(jì)算分類的HTML標(biāo)簽序列的相似度：[0066]編輯距離為兩個(gè)字符串之間，由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作次數(shù)；[0067]編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符；[0068]根據(jù)標(biāo)簽的分類特性，改進(jìn)的編輯距離定義為：一個(gè)字符串的不同類型標(biāo)簽通過刪除、插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類型標(biāo)簽最少操作代價(jià)。[0069]本發(fā)明有益的方法效果在于：本發(fā)明平行網(wǎng)頁識(shí)別方法對(duì)比傳統(tǒng)的網(wǎng)頁分塊算法和基于主題相似分塊的網(wǎng)頁正文提取方法，具有以下優(yōu)點(diǎn)：[0070](1)能提取正文較短的網(wǎng)頁，內(nèi)容的長(zhǎng)短并不會(huì)影響選擇的正確性。因?yàn)闊o論正文長(zhǎng)短都會(huì)參與計(jì)算，都不會(huì)被忽略。[0071](2)對(duì)處理〈table〉嵌套的復(fù)雜的網(wǎng)頁。因?yàn)闃?gòu)建了一棵HTML樹，可以保證每一個(gè)〈table〉標(biāo)簽都能得到一致的處理。[0072](3)降低了運(yùn)算量。不需要進(jìn)行簇的分析，聚類是非常耗費(fèi)時(shí)間的，不需要計(jì)算塊的熵，當(dāng)前第1頁1 2 3 4

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人;
技術(shù)所有人：青島恒波儀器有限公司;
我是此專利的發(fā)明人

上一篇：漢語語音遙控駕駛的汽車系統(tǒng)的制作方法
上一篇：一種文本信息的操作方法及終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

雙軌平行的調(diào)節(jié)裝置相關(guān)技術(shù)

無線識(shí)別裝置相關(guān)技術(shù)

usb裝置無法識(shí)別相關(guān)技術(shù)

裝置開停車風(fēng)險(xiǎn)識(shí)別相關(guān)技術(shù)

射頻識(shí)別裝置相關(guān)技術(shù)

顏色識(shí)別裝置相關(guān)技術(shù)

車牌識(shí)別裝置相關(guān)技術(shù)

圖像識(shí)別裝置相關(guān)技術(shù)

人臉識(shí)別裝置相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種平行網(wǎng)頁識(shí)別方法及裝置的制造方法