基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法

文檔序號：6431572閱讀：216來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及關(guān)鍵詞語檢索技術(shù)，具體的說，是涉及一種基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法。
背景技術(shù)：
目前網(wǎng)頁內(nèi)容關(guān)鍵詞的計算機自動提取方法主要采用以下方式1.對網(wǎng)頁的全體內(nèi)容進行分詞(即根據(jù)詞庫及文字組合規(guī)則將內(nèi)容劃分為一個個單獨的詞組)；2.結(jié)合相關(guān)的力口權(quán)算法如TF-IDF(Term Frequency-Inverse Document Frequency)分別計算出各個詞組在文章中的頻率；3.按照出現(xiàn)頻率的高低對各個詞組進行排序，并提取排序靠前的詞組作為關(guān)鍵詞。上述方式由于在處理過程中需要對文章全體內(nèi)容進行分詞，大大的增加了處理復(fù)雜程度和時間成本，特別是在大批量網(wǎng)頁數(shù)據(jù)的關(guān)鍵詞提取中效率低下，給運營商帶來了諸多不便。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提出一種基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，快速、高效提取關(guān)鍵詞，解決傳統(tǒng)技術(shù)中網(wǎng)頁內(nèi)容關(guān)鍵詞提取復(fù)雜、效率低的問題。本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，包括以下步驟a.獲取網(wǎng)頁信息內(nèi)容的標題和正文；b.對標題進行分詞，獲取分詞后的各個詞組并構(gòu)建包含這些詞組的詞組集；d.對詞組集中的詞組在正文中進行查詢定位，提取各個詞組所在的語句，并構(gòu)建包含這些語句的語句集；e.判斷語句集中的所有語句的總字符長度是否超過預(yù)先設(shè)定的字符長度閾值，如果超過，則執(zhí)行步驟f，如果未超過，則執(zhí)行步驟g ；f.刪除語句集中的部分語句，直至剩余所有語句的總字符長度不超過預(yù)先設(shè)定的字符長度閾值；g.對語句集中的語句進行分詞，獲取分詞后的各個詞組，并從中提取關(guān)鍵詞。進一步，步驟a中，由計算機根據(jù)HTML語法格式對網(wǎng)頁信息內(nèi)容的標題和正文進行區(qū)分，獲取網(wǎng)頁信息內(nèi)容的標題和正文。進一步，步驟b中，對標題進行分詞的方法是根據(jù)詞庫及文字組合規(guī)則將標題劃分為一個個單獨的詞組。進一步，在步驟b與步驟d之間還包括步驟C.對詞組集中的各個詞組按照權(quán)重值的大小來進行排序，所述權(quán)重值的大小由網(wǎng)絡(luò)使用頻率的高低來決定，網(wǎng)絡(luò)使用頻率高的詞組的權(quán)重值大，網(wǎng)絡(luò)使用頻率低的詞組的權(quán)重值小。
進一步，在步驟d中，對詞組集中的詞組按照權(quán)重值大小的順序在正文中進行查詢定位，優(yōu)先對權(quán)重值大的詞組進行查詢定位。進一步，在步驟d中，還包括按照查詢定位的先后順序?qū)φZ句集中的各個語句進行排序，優(yōu)先查詢定位的語句的排序靠前。進一步，在步驟d中，還包括對語句集中的各個語句的排序進行修正，修正方法為將語句集中來源于正文第一段或最后一段的語句的排序靠前。進一步，在步驟f中，按照一定的規(guī)則刪除語句集中的部分語句，所述一定規(guī)則為優(yōu)先刪除語句集中排序最后的語句，再刪除語句集中排序倒數(shù)第二的語句……依次類推。進一步，步驟g的具體步驟包括gl.對語句集中的語句進行分詞，獲取分詞后的各個詞組；g2.計算各個詞組重復(fù)出現(xiàn)的頻率；g3.根據(jù)實際需要選擇重復(fù)出現(xiàn)頻率較高的一個或數(shù)個詞組作為關(guān)鍵詞。本發(fā)明的有益效果是通過先對標題進行分詞，再對獲取到的詞組在正文中查詢定位，得到詞組所在語句，最后再對語句進行分詞以獲得詞組并在詞組中提取關(guān)鍵詞的方式，不需要對正文部分進行全部分詞處理，減少了處理過程，大大提高關(guān)鍵詞提取效率；并通過采取對語句排序修正和對字符長度精簡的措施，保證語句集中的語句為網(wǎng)頁內(nèi)容中的核心語句，有效地提高關(guān)鍵詞提取的精度。

圖1為本發(fā)明實施例的方法流程圖。
具體實施例方式傳統(tǒng)技術(shù)中采取對網(wǎng)頁內(nèi)容全文分詞，再對分詞后的詞組的頻率進行統(tǒng)計，選擇出現(xiàn)頻率高的詞組作為關(guān)鍵詞的方式來提取關(guān)鍵詞，其由于要對網(wǎng)頁內(nèi)容全文分詞，工作量大，關(guān)鍵詞提取效率不高；而針對上述問題，本發(fā)明提出了一種基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其方案可以概括為通過先對標題進行分詞，再對獲取到的詞組在正文中查詢定位，得到詞組所在語句，最后再對語句進行分詞以獲得詞組并在詞組中提取關(guān)鍵詞的方式，不需要對正文部分進行全部分詞處理，減少了處理過程，大大提高關(guān)鍵詞提取效率；并通過采取對語句排序修正和對字符長度精簡的措施，保證語句集中的語句為網(wǎng)頁內(nèi)容中的核心語句，有效地提高關(guān)鍵詞提取的精度。為使得本發(fā)明的技術(shù)方案更清晰完整，下面結(jié)合附圖及實施例對本發(fā)明作進一步的描述。如圖1所示，本例中的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，包括以下步驟a.獲取網(wǎng)頁信息內(nèi)容的標題和正文由計算機根據(jù)HTML語法格式對網(wǎng)頁信息內(nèi)容的標題和正文進行區(qū)分，獲取網(wǎng)頁信息內(nèi)容的標題和正文；b.對標題進行分詞，并構(gòu)建詞組集根據(jù)詞庫及文字組合規(guī)則將標題劃分為一個個單獨的詞組，再構(gòu)建包含這些詞組的詞組集，如W= {wl、w2、-,wi,…wn}，其中W表示詞組集，wi表示單獨的詞組，η表示詞組的個數(shù)；c.對詞組集中的各個詞組按照權(quán)重值的大小來進行排序其中權(quán)重值的大小由網(wǎng)絡(luò)使用頻率的高低來決定，網(wǎng)絡(luò)使用頻率高的詞組的權(quán)重值大，網(wǎng)絡(luò)使用頻率低的詞組的權(quán)重值小，按此順序?qū)υ~組集中的詞組進行排序，如排序后W = {wl、w2、…、wi、…wn}，則表示wl的權(quán)重值最大，w2的權(quán)重值次之……wn的權(quán)重值最小；排序的目的是為了后續(xù)步驟中對詞組的查詢定位作準備；d.在正文部分對各詞組進行查詢定位，提取其所在的語句并構(gòu)建語句集即對詞組集中的詞組按照權(quán)重值大小的順序(與詞組集中的詞組的排序順序一致)在正文中進行查詢定位，優(yōu)先對權(quán)重值大的詞組進行查詢定位，并構(gòu)建包含這些語句的語句集，如S = {sl、s2、s3、st"、sj、…sm}，其中S為語句集，si為單獨的語句，m為語句的個數(shù)，語句集中的語句的排序是按照查詢定位的先后順序進行的，由于查詢定位的先后順序是由詞組的權(quán)重值大小來決定的，因此語句集中的語句的排序與詞組的權(quán)重值大小有著密切的關(guān)聯(lián)；換言之，某個詞組的權(quán)重值最大，那么其是最先被查詢定位的，其所在的語句(可能為一個語句，也可能為多個語句)就應(yīng)該被排在語句集中的最前；某個詞組的權(quán)重值第二，那么其是第二個被查詢定位的，其所在的語句(可能為一個語句，也可能為多個語句)應(yīng)該緊跟著第一個被查詢定位的詞組所在的語句之后……依次類推，某個詞組的權(quán)重值最小，那么其是最后被查詢定位的，其所在的語句(可能為一個語句，也可能為多個語句)就應(yīng)該被排在語句集中的最后；e.對語句集中的各個語句的排序進行修正由于網(wǎng)頁信息的描述一般都是采取總、分、總的形式，即正文部分第一段和最后一段中包含關(guān)鍵詞的可能性最大，那么本例中就采取相應(yīng)的修正方式將語句集中來源于正文第一段和最后一段的語句的排序靠前，如上述步驟d中，雖然經(jīng)過排序后S = {sl、s2、s3、st"、sj、…sm}，s2排序第二位，但是由于s2為正文部分第一段中的語句，其出現(xiàn)關(guān)鍵詞的可能性很大，因此將其排序靠前，那么修正后的排序為S= {s2、sl、s3、s4…、sj、-sm}；同理，如果該語句集中出現(xiàn)了兩個來源于正文部分第一段或最后一段的語句，如除了 s2為正文部分第一段中的語句外，s3為正文部分最后一段中的語句，其出現(xiàn)關(guān)鍵詞的可能性也很大，因此也需將其排序靠前，但是由于修正前s2就排在s3前，那么在保證s2與s3的排序先后關(guān)系的前提下，經(jīng)過修正，新的排序為 S= {s2、s3、sl、s4...、sj、…sm}；f.根據(jù)情況對修正后的語句集進行縮減，獲取核心語句集即首先判斷語句集中的所有語句的總字符長度是否超過預(yù)先設(shè)定的字符長度閾值(如140個字符)，如果未超過，則此時語句集中的所有語句均為核心語句，如果超過，則進行語句的刪除，刪除的先后順序為首先刪除排序最后的那個語句，再刪除排序倒數(shù)第二的那個語句，順序刪除sm、 s (m-1)、s (m-2)…如此類推，直至剩余語句的總字符長度不超過預(yù)先設(shè)定的字符長度閾值，如此，將剩余的語句作為核心語句；g.對核心語句進行分詞，獲取分詞后的各個詞組，并從中提取關(guān)鍵詞即首先對當前語句集中的語句(核心語句)進行分詞，獲取分詞后的各個詞組；再計算各個詞組重復(fù)出現(xiàn)的頻率；最后根據(jù)實際需要選擇重復(fù)出現(xiàn)頻率較高的一個或數(shù)個詞組作為關(guān)鍵詞；如根據(jù)各個詞組(在分詞后得到的詞組集中)重復(fù)出現(xiàn)的頻率對詞組進行排序，A= {Al、 A2、A3、A4…、Aj、…}，則表示Al詞組在A集合中重復(fù)出現(xiàn)的頻率最高、A2詞組在A集合中重復(fù)出現(xiàn)的頻率第二高、A3詞組在A集合中重復(fù)出現(xiàn)的頻率第三高……依次類推；如果需要選擇一個詞組作為關(guān)鍵詞，則選擇Al ；如果需要選擇兩個詞組作為關(guān)鍵詞，則選擇Al和 A2 ；如果需要選擇三個詞組作為關(guān)鍵詞，則選擇Al、A2和A3。
權(quán)利要求
1.基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，包括以下步驟a.獲取網(wǎng)頁信息內(nèi)容的標題和正文；b.對標題進行分詞，獲取分詞后的各個詞組并構(gòu)建包含這些詞組的詞組集；d.對詞組集中的詞組在正文中進行查詢定位，提取各個詞組所在的語句，并構(gòu)建包含這些語句的語句集；e.判斷語句集中的所有語句的總字符長度是否超過預(yù)先設(shè)定的字符長度閾值，如果超過，則執(zhí)行步驟f，如果未超過，則執(zhí)行步驟g ；f.刪除語句集中的部分語句，直至剩余所有語句的總字符長度不超過預(yù)先設(shè)定的字符長度閾值；g.對語句集中的語句進行分詞，獲取分詞后的各個詞組，并從中提取關(guān)鍵詞。
2.如權(quán)利要求1所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，步驟a中，由計算機根據(jù)HTML語法格式對網(wǎng)頁信息內(nèi)容的標題和正文進行區(qū)分，獲取網(wǎng)頁信息內(nèi)容的標題和正文。
3.如權(quán)利要求1或2所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，步驟b中，對標題進行分詞的方法是根據(jù)詞庫及文字組合規(guī)則將標題劃分為一個個單獨的詞組。
4.如權(quán)利要求1或2所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，在步驟b與步驟d之間還包括步驟c.對詞組集中的各個詞組按照權(quán)重值的大小來進行排序，所述權(quán)重值的大小由網(wǎng)絡(luò)使用頻率的高低來決定，網(wǎng)絡(luò)使用頻率高的詞組的權(quán)重值大，網(wǎng)絡(luò)使用頻率低的詞組的權(quán)重值小。
5.如權(quán)利要求1或2所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，在步驟d中，對詞組集中的詞組按照權(quán)重值大小的順序在正文中進行查詢定位，優(yōu)先對權(quán)重值大的詞組進行查詢定位。
6.如權(quán)利要求1或2所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，在步驟d中，還包括按照查詢定位的先后順序?qū)φZ句集中的各個語句進行排序，優(yōu)先查詢定位的語句的排序靠前。
7.如權(quán)利要求6所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，在步驟d中，還包括對語句集中的各個語句的排序進行修正，修正方法為將語句集中來源于正文第一段或最后一段的語句的排序靠前。
8.如權(quán)利要求7所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，在步驟f中，按照一定的規(guī)則刪除語句集中的部分語句，所述一定規(guī)則為優(yōu)先刪除語句集中排序最后的語句，再刪除語句集中排序倒數(shù)第二的語句……依次類推。
9.如權(quán)利要求8所述的基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，其特征在于，步驟g的具體步驟包括gl.對語句集中的語句進行分詞，獲取分詞后的各個詞組；g2.計算各個詞組重復(fù)出現(xiàn)的頻率；g3.根據(jù)實際需要選擇重復(fù)出現(xiàn)頻率較高的一個或數(shù)個詞組作為關(guān)鍵詞。
全文摘要
本發(fā)明涉及關(guān)鍵詞語檢索技術(shù)，其公開了一種基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法，解決傳統(tǒng)技術(shù)中網(wǎng)頁內(nèi)容關(guān)鍵詞提取復(fù)雜、效率低的問題。其技術(shù)方案的要點可概括為通過先對標題進行分詞，再對獲取到的詞組在正文中查詢定位，得到詞組所在語句，最后再對語句進行分詞以獲得詞組并在詞組中提取關(guān)鍵詞的方式，不需要對正文部分進行全部分詞處理，減少了處理過程，大大提高關(guān)鍵詞提取效率；并通過采取對語句排序修正和對字符長度精簡的措施，保證語句集中的語句為網(wǎng)頁內(nèi)容中的核心語句，有效地提高關(guān)鍵詞提取的精度。本發(fā)明適用于對網(wǎng)頁內(nèi)容進行關(guān)鍵詞提取。
文檔編號G06F17/30GK102270244SQ20111024857
公開日2011年12月7日申請日期2011年8月26日優(yōu)先權(quán)日2011年8月26日
發(fā)明者劉東, 孟慶康, 文斌申請人:四川長虹電器股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孟慶康;文斌;劉東
技術(shù)所有人：四川長虹電器股份有限公司
我是此專利的發(fā)明人

上一篇：軟件執(zhí)行方法及其電子裝置的制作方法
上一篇：一種數(shù)據(jù)替換的方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)頁關(guān)鍵詞密度檢測相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于核心語句的網(wǎng)頁內(nèi)容關(guān)鍵詞快速提取方法