午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種平行網(wǎng)頁(yè)識(shí)別方法及裝置的制造方法_4

文檔序號(hào):9417350閱讀:來(lái)源:國(guó)知局
, η)
[0227] 其中m和η分別為源語(yǔ)言文本和目標(biāo)語(yǔ)言文本出現(xiàn)數(shù)字的個(gè)數(shù),Z為最大匹配長(zhǎng) 度,詳細(xì)計(jì)算步驟如下:
[0228] 假設(shè)從源語(yǔ)言和目標(biāo)語(yǔ)言文木對(duì)巾提取的數(shù)字序列分別為X = [Xl,x2,…,X1,…, Xm]和Y= [yi,y2,…,yj,"·,γη],由此構(gòu)建m*n維匹配關(guān)系矩陣C,矩陣元素 c[i,j]為:
[0229]
[0230] 利用矩陣C建立字符串最大匹配長(zhǎng)度矩陣D,元素 D[i,j]計(jì)算原則:
[0231] a、循環(huán)從右向左、從下而上的。
[0232] b、元素 D[i,j]為:
[0233] D[i,j] = Max(C[i,j]+C[i+l,j+1],C[i,j+1],C[i+1,j])
[0234] 其中,矩陣D中最終生成的元素 D[0,0]即為最大匹配長(zhǎng)度Z。
[0235] 為充分展示共現(xiàn)數(shù)字序列信息的計(jì)算方法,列舉數(shù)字序列分別為X = [4, 5, 34, 5, 2,45,8,12]和Y = [4, 7, 34,8, 78,9, 5, 2,12]。計(jì)算所得匹配關(guān)系矩陣C如表2,最大匹配 矩陣D如表3,因此得到最大匹配長(zhǎng)度Z為5,數(shù)字序列信息Dn的大小為1-5/9 = 0. 44。
[0236] 表2 :X與Y匹配關(guān)系矩陣C
[0237]
[0238] 表3 :X與Y最大匹配矩陣D
[0239]
[0240] 本發(fā)明網(wǎng)頁(yè)正文提取比對(duì)方法采用了支持向量機(jī)分類(lèi)的SVM算法。SVM算法是統(tǒng) 計(jì)學(xué)理論的一種實(shí)現(xiàn)方法。SVM建立在統(tǒng)計(jì)學(xué)習(xí) VC維(Vapnik-Chervonenkis Dimension) 理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,通過(guò)引入核函數(shù),將樣本向量映射到高維特征空間,然后 在高維空間中構(gòu)造最優(yōu)分類(lèi)面,獲得線性最優(yōu)決策函數(shù)。SVM的優(yōu)勢(shì)是可以通過(guò)采用核函數(shù) 巧妙解決維數(shù)問(wèn)題,避免了學(xué)習(xí)算法計(jì)算復(fù)雜度與樣本維數(shù)的直接相關(guān)。
[0241] 令{(Xl,yi),i = 1,.",S}由S個(gè)數(shù)據(jù)點(diǎn)構(gòu)成了 SVM的訓(xùn)練數(shù)據(jù)集,其中,Xie Rn, Yie {_1,1},最優(yōu)決策函數(shù)為: CN 105138517 A VL lb/lb 貝
[0242]
C2J)
[0243] 其中,Sgn[.]為符號(hào)函數(shù),非負(fù)變量α為L(zhǎng)agrange函數(shù),b為超平面的偏置值。
[0244] 從預(yù)處理過(guò)的源語(yǔ)言和目標(biāo)語(yǔ)言文檔中分別選擇鏡像至本地路徑相差兩級(jí)以?xún)?nèi) 的網(wǎng)頁(yè)構(gòu)成候選平行網(wǎng)頁(yè)對(duì)。針對(duì)網(wǎng)頁(yè)對(duì)分別計(jì)算HTML標(biāo)簽序列信息Dt、文本長(zhǎng)度信息 Di、文本句數(shù)信息Ds和數(shù)字序列信息Dn構(gòu)成SVM分類(lèi)器的特征信息Xie R n(n = 4)。其 中,Dt反映網(wǎng)頁(yè)結(jié)構(gòu)信息,從預(yù)處理過(guò)的網(wǎng)頁(yè)中提取;Di、Ds和Dn反映網(wǎng)頁(yè)內(nèi)容信息,從網(wǎng) 頁(yè)正文中提取。
[0245] 通過(guò)在由已知的平行網(wǎng)頁(yè)對(duì)和非平行網(wǎng)頁(yè)對(duì)構(gòu)成的訓(xùn)練集上訓(xùn)練SVM,判定未知 分類(lèi)的網(wǎng)頁(yè)是否為平行網(wǎng)頁(yè)。支持向量機(jī)的判斷結(jié)果yi = 1表示網(wǎng)頁(yè)對(duì)為平行網(wǎng)頁(yè)對(duì),yi =-1表示網(wǎng)頁(yè)對(duì)為非平行網(wǎng)頁(yè)對(duì)。
[0246] 本發(fā)明網(wǎng)頁(yè)正文提取比對(duì)方法對(duì)比傳統(tǒng)的網(wǎng)頁(yè)分塊算法和基于主題相似分塊的 網(wǎng)頁(yè)正文提取方法,后者具有以下優(yōu)點(diǎn):
[0247] (1)能提取正文較短的網(wǎng)頁(yè),內(nèi)容的長(zhǎng)短并不會(huì)影響選擇的正確性。因?yàn)闊o(wú)論正文 長(zhǎng)短都會(huì)參與計(jì)算,都不會(huì)被忽略。
[0248] (2)對(duì)處理〈table〉嵌套的復(fù)雜的網(wǎng)頁(yè)。因?yàn)闃?gòu)建了一棵HTML樹(shù),可以保證每一 個(gè)〈table〉標(biāo)簽都能得到一致的處理。
[0249] (3)降低了運(yùn)算量。不需要進(jìn)行簇的分析,聚類(lèi)是非常耗費(fèi)時(shí)間的,不需要計(jì)算塊 的熵,只是針對(duì)本網(wǎng)頁(yè)進(jìn)行分析就能判斷。
[0250] (4)增加了一定程度的語(yǔ)義信息。因?yàn)橛行Ю昧藰?biāo)題標(biāo)簽與正文的語(yǔ)義信息,提 取正文的語(yǔ)義相關(guān)性更強(qiáng)。
[0251] 所有上述的首要實(shí)施這一知識(shí)產(chǎn)權(quán),并沒(méi)有設(shè)定限制其他形式的實(shí)施這種新產(chǎn)品 和/或新方法。本領(lǐng)域方法人員將利用這一重要信息,上述內(nèi)容修改,以實(shí)現(xiàn)類(lèi)似的執(zhí)行情 況。但是,所有修改或改造基于本發(fā)明新產(chǎn)品屬于保留的權(quán)利。
【主權(quán)項(xiàng)】
1. 一種平行網(wǎng)頁(yè)識(shí)別方法,其特征在于,包括以下步驟: 步驟A :基于對(duì)于網(wǎng)頁(yè)特定標(biāo)簽,判斷網(wǎng)頁(yè)是否為正文頁(yè); 步驟B :對(duì)平行網(wǎng)頁(yè)的識(shí)別; 所述步驟A進(jìn)一步包括以下子步驟: 步驟一:網(wǎng)頁(yè)預(yù)處理,構(gòu)造HTML樹(shù); 步驟二:對(duì)HTML樹(shù)剪枝; 步驟三:獲取網(wǎng)頁(yè)主題:獲取網(wǎng)頁(yè)Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo)簽<meta>的 內(nèi)容;對(duì)以上內(nèi)容進(jìn)行分詞處理,去掉虛詞、停用詞,最后得到只含有實(shí)詞的序列Stitle ; 步驟四:提取分塊內(nèi)的字符串內(nèi)容; 步驟五:計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離; 步驟六:比較編輯距離L和max (p,q)。2. 根據(jù)權(quán)利要求1所述平行網(wǎng)頁(yè)識(shí)別方法,其特征在于,所述步驟二進(jìn)一步包括以下 子步驟:按照〈table〉標(biāo)簽進(jìn)行分塊,將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。3. 根據(jù)權(quán)利要求1或2所述平行網(wǎng)頁(yè)識(shí)別方法,其特征在于,所述步驟五進(jìn)一步包括: 對(duì)中文進(jìn)行分詞,使用的Levenshtein距離如式(2)和式(3)所示:4. 根據(jù)權(quán)利要求1~3中任一項(xiàng)所述平行網(wǎng)頁(yè)識(shí)別方法,其特征在于,所述步驟B進(jìn)一 步包括:特征信息提取子步驟和支持向量機(jī)分類(lèi)子步驟; 所述特征信息提取子步驟進(jìn)一步包括: 建立特征信息:特征信息包括網(wǎng)頁(yè)HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文 本句數(shù)信息和數(shù)字序列信息; 將HTML標(biāo)簽按其在網(wǎng)頁(yè)布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無(wú)關(guān) 標(biāo)簽三類(lèi)標(biāo)簽: 結(jié)構(gòu)標(biāo)簽:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、tbody、 td、tfoot、th、thead、tr、ul ; 格式標(biāo)簽:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、 span、strike、strong、style、sub、sup、tt、u ; 無(wú)關(guān)標(biāo)簽:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、 script、var、a、fieldset、form、input、is index、label、legend ;計(jì)算結(jié)構(gòu)對(duì)稱(chēng)性時(shí)刪去D5. 根據(jù)權(quán)利要求1~3中任一項(xiàng)所述平行網(wǎng)頁(yè)識(shí)別方法,其特征在于,所述步驟B進(jìn)一 步包括:特征信息提取子步驟和支持向量機(jī)分類(lèi)子步驟; 采用改進(jìn)的編輯距離計(jì)算分類(lèi)的HTML標(biāo)簽序列的相似度: 編輯距離為兩個(gè)字符串之間,由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作 次數(shù); 編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符; 根據(jù)標(biāo)簽的分類(lèi)特性,改進(jìn)的編輯距離定義為:一個(gè)字符串的不同類(lèi)型標(biāo)簽通過(guò)刪除、 插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類(lèi)型標(biāo)簽最少操作代價(jià)。6. -種平行網(wǎng)頁(yè)識(shí)別系統(tǒng),其特征在于,包括以下模塊: 模塊A :用于基于對(duì)于網(wǎng)頁(yè)特定標(biāo)簽,判斷網(wǎng)頁(yè)是否為正文頁(yè); 模塊B :用于對(duì)平行網(wǎng)頁(yè)的識(shí)別; 所述模塊A進(jìn)一步包括以下子模塊: 預(yù)處理子模塊:用于對(duì)網(wǎng)頁(yè)預(yù)處理,構(gòu)造HTML樹(shù); 剪枝子模塊:用于對(duì)HTML樹(shù)剪枝; 獲取主題子模塊:用于獲取網(wǎng)頁(yè)主題:獲取網(wǎng)頁(yè)Title及其各級(jí)標(biāo)題<hl>~<hg>和標(biāo) 簽<meta>的內(nèi)容;對(duì)以上內(nèi)容進(jìn)行分詞處理,去掉虛詞、停用詞,最后得到只含有實(shí)詞的序 列 Stitle ; 提取分塊子模塊:用于提取分塊內(nèi)的字符串內(nèi)容; 計(jì)算距離子模塊:用于計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離; 比較距離子模塊:用于比較編輯距離L和max (p,q)。7. 根據(jù)權(quán)利要求6所述平行網(wǎng)頁(yè)識(shí)別系統(tǒng),其特征在于,所述剪枝子模塊進(jìn)一步用于: 按照〈table〉標(biāo)簽進(jìn)行分塊,將不包含文本和鏈接信息的葉子節(jié)點(diǎn)去掉。8. 根據(jù)權(quán)利要求6或7所述平行網(wǎng)頁(yè)識(shí)別系統(tǒng),其特征在于,所述計(jì)算距離子模塊進(jìn)一 步用于:對(duì)中文進(jìn)行分詞,使用的Levenshtein距離如式(2)和式(3)所示:9. 根據(jù)權(quán)利要求6~8中任一項(xiàng)所述平行網(wǎng)頁(yè)識(shí)別系統(tǒng),其特征在于,所述模塊B進(jìn)一 步包括以下子模塊:特征信息提取子模塊和支持向量機(jī)分類(lèi)子模塊; 所述特征信息提取子模塊用于: 建立特征信息:特征信息包括網(wǎng)頁(yè)HTML標(biāo)簽結(jié)構(gòu)信息和基于內(nèi)容的文本長(zhǎng)度信息、文 本句數(shù)信息和數(shù)字序列信息; 將HTML標(biāo)簽按其在網(wǎng)頁(yè)布局、顯示、鏈接功能特征劃分為結(jié)構(gòu)標(biāo)簽、格式標(biāo)簽和無(wú)關(guān) 標(biāo)簽三類(lèi)標(biāo)簽: 結(jié)構(gòu)標(biāo)簽:blockquote、body、dir、div、dt、h、head、hr、li、menu、p、q、to We、tbody、 td、tfoot、th、thead、tr、ul ; 格式標(biāo)簽:abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、 span、strike、strong、style、sub、sup、tt、u ; 無(wú)關(guān)標(biāo)簽:applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、 script、var、a、fieldset、form、input、is index、label、legend ;計(jì)算結(jié)構(gòu)對(duì)稱(chēng)性時(shí)刪去。10.根據(jù)權(quán)利要求6~8中任一項(xiàng)所述平行網(wǎng)頁(yè)識(shí)別系統(tǒng),其特征在于,所述模塊B進(jìn) 一步包括以下子模塊:特征信息提取子模塊和支持向量機(jī)分類(lèi)子模塊; 采用改進(jìn)的編輯距離計(jì)算分類(lèi)的HTML標(biāo)簽序列的相似度: 編輯距離為兩個(gè)字符串之間,由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的最少編輯操作 次數(shù); 編輯操作包括一個(gè)字符替換成另一個(gè)字符、插入一個(gè)字符和刪除一個(gè)字符; 根據(jù)標(biāo)簽的分類(lèi)特性,改進(jìn)的編輯距離定義為:一個(gè)字符串的不同類(lèi)型標(biāo)簽通過(guò)刪除、 插入和替換轉(zhuǎn)換成另一個(gè)字符串不同類(lèi)型標(biāo)簽最少操作代價(jià)。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種平行網(wǎng)頁(yè)識(shí)別方法,包括以下步驟:步驟A:基于對(duì)于網(wǎng)頁(yè)特定標(biāo)簽,判斷網(wǎng)頁(yè)是否為正文頁(yè);步驟B:對(duì)平行網(wǎng)頁(yè)的識(shí)別。所述步驟A進(jìn)一步包括以下子步驟:步驟一:網(wǎng)頁(yè)預(yù)處理,構(gòu)造HTML樹(shù);步驟二:對(duì)HTML樹(shù)剪枝;步驟三:獲取網(wǎng)頁(yè)主題;步驟四:提取分塊內(nèi)的字符串內(nèi)容;步驟五:計(jì)算主題S和一個(gè)塊內(nèi)內(nèi)容y的距離;步驟六:比較編輯距離L和max(p,q)。本發(fā)明網(wǎng)頁(yè)正文提取比對(duì)方法具有以下優(yōu)點(diǎn):能提取正文較短的網(wǎng)頁(yè),內(nèi)容的長(zhǎng)短并不會(huì)影響選擇的正確性。因?yàn)闊o(wú)論正文長(zhǎng)短都會(huì)參與計(jì)算,都不會(huì)被忽略。對(duì)處理&lt;table&gt;嵌套的復(fù)雜的網(wǎng)頁(yè)可以保證每一個(gè)&lt;table&gt;標(biāo)簽都能得到一致的處理。
【IPC分類(lèi)】G06F17/27
【公開(kāi)號(hào)】CN105138517
【申請(qǐng)?zhí)枴緾N201510695478
【發(fā)明人】不公告發(fā)明人
【申請(qǐng)人】青島恒波儀器有限公司
【公開(kāi)日】2015年12月9日
【申請(qǐng)日】2015年10月23日
當(dāng)前第4頁(yè)1 2 3 4 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1