基于詞分布的詞語全局權(quán)重計算方法

文檔序號：6582163閱讀：472來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于詞分布的詞語全局權(quán)重計算方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種自然語言的處理方法，特別涉及一種詞語權(quán)重的計算方法。
背景技術(shù)：
90年代以來，隨著網(wǎng)絡(luò)信息的爆炸，人們需要精準地在網(wǎng)絡(luò)上獲取信息。這促使自然語言處理迅速發(fā)展，信息檢索、信息過濾、文本分類、自動文摘、問答系統(tǒng)等自然語言處理應(yīng)用技術(shù)的研究就成為近年來研究的熱點。支持向量機、向量空間模型、潛在語義分析模型等新模型層出不窮。這些新模型都以詞語權(quán)重的計算為基礎(chǔ)，詞語權(quán)重計算是否準確直接影響著自然語言處理的最終結(jié)果，如圖1。文檔中每一個詞語所表達的文檔的信息量是不同的，我們用詞語權(quán)重來表示詞語的重要程度，只有準確地計算出每個詞語的權(quán)重，才能使文檔中的語義信息表現(xiàn)得更加明顯。常見的權(quán)重算法，布爾權(quán)重，特征頻度，TF-IDF，熵等，都考慮了能夠描述詞語包含信息量的某個因素，如詞頻、文檔頻、詞的位置等。有的權(quán)重計算方法根據(jù)詞語在單一文檔中的規(guī)律計算出權(quán)重，稱之為詞語局部權(quán)重；還有的根據(jù)詞語在文檔集中的規(guī)律計算出權(quán)重，稱之為詞語全局權(quán)重。現(xiàn)有的詞語權(quán)重計算方法得到的結(jié)果不夠精確，這將直接影響以詞語權(quán)重算法為基礎(chǔ)的自然語言處理模型的處理結(jié)果。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有詞語權(quán)重計算方法不夠準確的問題，而提供一種基于詞分布的詞語全局權(quán)重計算方法，該方法能夠提高計算詞語權(quán)重的準確性，從而有效的提高相應(yīng)自然語言處理模型的準確率。為了達到上述目的，本發(fā)明采用如下的技術(shù)方案基于詞分布的詞語全局權(quán)重計算方法，該方法包括如下步驟 (1)將待分析文檔集進行預(yù)處理，使待分析文檔集成為包含文檔主要內(nèi)容的詞序列。
(2)計算詞序列中詞語的分布均勻度系數(shù)；
(3)計算詞序列中詞語的分布廣度系數(shù)；
(4)計算基于詞分布的詞語全局權(quán)重。根據(jù)上述技術(shù)方案得到的本發(fā)明能有效優(yōu)化目前詞語權(quán)重計算方法，提高其準確率，推動自然語言處理的研究和應(yīng)用。本發(fā)明能夠使得以詞語權(quán)重算法為基礎(chǔ)的自然語言處理應(yīng)用，如信息檢索、文本分類、垃圾郵件過濾等獲得更佳的處理結(jié)果。本發(fā)明在實際應(yīng)用中可與其他權(quán)重算法組合，能夠獲得更高的準確率。

以下結(jié)合附圖和具體實施方式
來進一步說明本發(fā)明。
圖1為詞語權(quán)重計算方法與自然語言領(lǐng)域各技術(shù)的關(guān)系示意圖。
圖2為在文檔集中詞語分布均勻度與詞語權(quán)重的關(guān)系示意圖。
圖3為在文檔集中詞語分布均勻度與詞語權(quán)重的關(guān)系示意圖。
圖4為本發(fā)明的流程圖。
具體實施例方式
為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達成目的與功效易于明白了解，下面結(jié)合具體圖示，進一步闡述本發(fā)明。詞語全局權(quán)重根據(jù)詞語在文檔集中的統(tǒng)計規(guī)律進行權(quán)重計算，它考慮文檔集影響詞語權(quán)重的一些因素，如詞的文檔頻IDF等。在文檔集中，大范圍均勻分布的詞語蘊含更少的信息量，和文檔的內(nèi)容基本無關(guān)；小范圍集中分布的詞語，蘊含較多信息量，更可能和出現(xiàn)該詞語的文檔內(nèi)容相關(guān)。本專利對文檔中詞語的分布進行研究，根據(jù)"K. Pearson定理"設(shè)計分布均勻度系數(shù)及其計算方法，來衡量詞的分布情況。文檔集中不同的詞對應(yīng)著不同的分布均勻度系數(shù)，分布均勻度系數(shù)的值越小，詞的分布越均勻，其全局權(quán)重也應(yīng)當(dāng)越小。另一方面，該統(tǒng)計量僅僅描述了詞語分布的均勻程度，本專利還利用詞語分布廣度，來適當(dāng)提高相應(yīng)詞的權(quán)重。基于上述原理，本發(fā)明提供的一種基于詞分布的詞語全局權(quán)重算法通過如下步驟實現(xiàn)(參見圖4): (1)計算詞語全局權(quán)重前，必須將待分析的文檔集進行中文分詞、詞性標注、去停用詞、信息抽取等預(yù)處理操作，從而使待分析文檔集成為包含文檔主要內(nèi)容的詞序列(其為本領(lǐng)域較為成熟的技術(shù)，此處不加以贅述)。
(2)計算詞序列中詞語的分布均勻度系數(shù)；設(shè)某一文檔集共有m篇文檔、Cm個字，對其執(zhí)行步驟(1)后，得到了詞序列。下面對詞序列中的第j個詞語求分布均勻度系數(shù) 設(shè)區(qū)間(C卜一l， C》表示第i篇文檔從文檔集的第C卜,1個字到第&個字，(其中C。 = 0， i = 1，2， . . . ， m)，文檔集的總字數(shù)為Cm?？梢妼τ谖臋n集中的任一詞語，包括詞序
列中的第j個詞語，如果它均勻分布，則其出現(xiàn)在第i篇文檔中的概率為巧=^^" (i =
、
1， 2， . . . ， m) ， n是這個詞在文檔集中實際出現(xiàn)的總次數(shù)，Vi是這個詞在第i篇文檔中實際出現(xiàn)的次數(shù)，則第j個詞語的分布均勻度系數(shù)為
x =f (Vl，， vm， r" rm， m， n， a， b) 其中，x2j為詞序列中第j個詞語的分布均勻度系數(shù)，根據(jù)統(tǒng)計學(xué)原理，對上述變量進行數(shù)學(xué)變換得出。Vl， . . . ， vm， ri， . . . rm， m， n都是變量，取決于第j個詞語在待分析文檔集中的統(tǒng)計情況。a，b為參數(shù)，涉及本專利的最優(yōu)實施方案，需根據(jù)本專利的具體應(yīng)用而定。
本專利計算的第j個詞語的在文檔集中的分布均勻度系數(shù)X 2，.具有以下性質(zhì)值越小，表示第j個詞語在文檔集中出現(xiàn)狀態(tài)就越均勻。按照前面所述，"在文檔集中，大范圍均勻分布的詞語蘊含更少的信息量，和文檔的內(nèi)容基本無關(guān)；小范圍集中分布的詞語，蘊含較多信息量，更可能和出現(xiàn)該詞語的文檔內(nèi)容相關(guān)"(如圖2和圖3所示)，也就是說詞語分布越均勻的詞語全局權(quán)重越小?？梢姳緦＠嬎愕姆植季鶆蚨认禂?shù)符合實際情況。
(3)計算詞序列中詞語的分布廣度系數(shù) 待分析文檔集中，詞語分布的廣度和該詞語出現(xiàn)的文檔總數(shù)、文檔集中文檔總數(shù)
有關(guān)。根據(jù)統(tǒng)計學(xué)原理，本專利設(shè)計分布廣度系數(shù)計算方法如下如對于詞序列中的第j個詞語，其分布廣度系數(shù)通過以下公式得到 Bj = 4) (p， m ;c， d， e) 其中，p， m為變量，p為該文檔中出現(xiàn)該詞語的段落總數(shù)，m為文檔段落數(shù)；c、 d、 e 為參數(shù)。 (4)計算基于詞分布的詞語全局權(quán)重?；谠~分布的詞語全局權(quán)重需將上述分布
均勻度系數(shù)和分布廣度系數(shù)的計算結(jié)果，根據(jù)統(tǒng)計學(xué)原理，設(shè)計組合計算方法。如根據(jù)前面得到的第j個詞語的分布均勻度系數(shù)和分布廣度系數(shù)，可計算得到第
j個詞語的全局權(quán)重
其中，X2j， Bj為變量，分別為分布均勻度系數(shù)和分布廣度系數(shù)；f、 g、 h為參數(shù)，涉及本專利的最優(yōu)實施方案，需根據(jù)本專利的具體應(yīng)用而定。在對本發(fā)明具體測試時，采用在sina、 sohu等中國國內(nèi)知名網(wǎng)絡(luò)媒體近1年內(nèi)的超過150萬篇網(wǎng)頁文檔作為語料庫對本發(fā)明進行測試，具體方法如下
在超過150萬篇網(wǎng)頁文檔中隨機挑選1000篇文檔，內(nèi)容涉及新聞、娛樂、汽車、體育等12個大類。通過兩種方式進行計算相應(yīng)詞語的權(quán)重，一種是人工方式人工選擇每篇文檔中最重要的20個詞語，并標注出權(quán)重，標注過程需保證每篇文檔的詞語權(quán)重由10個不同員工標注，平均值作為人工標注的最終詞語權(quán)重。另一種方式是利用本發(fā)明提供的計算方法和IDF算法分別計算出相應(yīng)詞語的詞語權(quán)重，最后將得到的結(jié)果與人工標注的結(jié)果比對。測試結(jié)果顯示本發(fā)明提供的基于詞分布的詞語全局權(quán)重算法比其他IDF算法更接近人工標注的值。本專利發(fā)明的"基于詞分布的詞語全局權(quán)重計算方法"能夠有效地分析出待分析文檔集中能有效區(qū)分文檔內(nèi)容的重要詞語并給予適當(dāng)權(quán)重，該技術(shù)適用于文本分類的應(yīng)用系統(tǒng)，如海量信息管理、文檔自動分類、辦公自動化系統(tǒng)等。以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù) 人員應(yīng)該了解，本發(fā)明不受上述實施例的限制，上述實施例和說明書中描述的只是說明本發(fā)明的原理，在不脫離本發(fā)明精神和范圍的前提下，本發(fā)明還會有各種變化和改進，這些變化和改進都落入要求保護的本發(fā)明范圍內(nèi)。本發(fā)明要求保護范圍由所附的權(quán)利要求書及其等效物界定。
權(quán)利要求
基于詞分布的詞語全局權(quán)重計算方法，其特征在于，所述方法包括如下步驟(1)將待分析的文檔集進行預(yù)處理操作，使待分析文檔集成為包含文檔主要內(nèi)容的詞序列。(2)計算詞序列中詞語的分布均勻度系數(shù)；(3)計算詞序列中詞語的分布廣度系數(shù)；(4)基于步驟(2)和步驟(3)得到的分布均勻度系數(shù)和分布廣度系數(shù)，通過組合計算方法得到基于詞分布的詞語全局權(quán)重。
全文摘要
本發(fā)明公開了基于詞分布的詞語全局權(quán)重計算方法，該方法包括如下步驟(1)計算詞序列中詞語的分布均勻度系數(shù)；(2)計算詞序列中詞語的分布廣度系數(shù)；(3)計算基于詞分布的詞語全局權(quán)重。本發(fā)明將有效優(yōu)化目前詞語權(quán)重計算方法，提高其準確率，推動自然語言處理的研究和應(yīng)用。
文檔編號G06F17/27GK101706776SQ20091019889
公開日2010年5月12日申請日期2009年11月17日優(yōu)先權(quán)日2009年11月17日
發(fā)明者夏天申請人:上海第二工業(yè)大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏天
技術(shù)所有人：上海第二工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)鍵詞權(quán)重相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于詞分布的詞語全局權(quán)重計算方法