基于統(tǒng)計模型的Web命名實體識別方法

文檔序號：6566114閱讀：707來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于統(tǒng)計模型的Web命名實體識別方法
技術(shù)領(lǐng)域：
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域，主要涉及Web信息抽取領(lǐng)域，尤其涉及Web命名實體識別。具體是一種基于統(tǒng)計模型的Web命名實體識別方法，主要用來識別出Web命名實體，實現(xiàn)對網(wǎng)頁信息的獲取以及預(yù)處理。
背景技術(shù)：
Web命名實體識別技術(shù)主要針對Web頁面的信息進行最基本數(shù)據(jù)的獲取。通過獲得數(shù)據(jù)從而能對網(wǎng)頁的內(nèi)容進行識別，也為后續(xù)的各種應(yīng)用如信息抽取、自動問答、及其翻譯等都需要命名實體識別技術(shù)的支撐，這也是自然語言處理中一項基本工作。在網(wǎng)絡(luò)技術(shù)飛速發(fā)展，并廣泛應(yīng)用于各個領(lǐng)域的當(dāng)今，對它的研究非常重要。一般來說，命名實體識別就是對一篇或多篇待處理的文本，識別出其中出現(xiàn)的命名實體，比如人名、地名、機構(gòu)名、時間日期、數(shù)字等。目前，對英文命名實體識別已經(jīng)取得了很好的效果，對它的研究與開發(fā)主要集中在學(xué)習(xí)領(lǐng)域，包括隱馬爾可夫模型、最大熵模型和支持向量機等，一些系統(tǒng)已經(jīng)可以實際應(yīng)用。在第七屆信息理解會議(MUC-7)時，最好的英文命名實體識別系統(tǒng)已經(jīng)達到了 95%的查全率和92 %的查準(zhǔn)率。與英文命名實體識別相比，中文命名實體識別的效果還差很多。第二屆多語種實體評價會議(MET-2)時，最好的中文命名實體識別系統(tǒng)在人名、地名、機構(gòu)名的查準(zhǔn)率分別為66、89、89%，查全率分別為92、91、88%。目前中文命名實體識別從方法上來說，主要是基于規(guī)則和統(tǒng)計這兩種方法?；谝?guī)則的方法一般采用特征字或特征詞觸發(fā)的方式來進行命名實體識別?；诮y(tǒng)計的方法主要通過，對大規(guī)模語料庫命名實體及其上下文進行統(tǒng)計分析，構(gòu)建統(tǒng)計模型進行命名實體識別。早期的中文命名實體識別模型包含數(shù)個子模型，每個子模型處理某一類實體，如對人名的識別可能使用基于規(guī)則的方法，對地名、機構(gòu)名的識別可能使用基于統(tǒng)計的方法。例如，隱馬爾可夫模型、概率上下文無關(guān)語法、基于決策樹的語言模型、最大熵語言模型、條件隨機場模型等。隨后就出現(xiàn)了各種改進模型，對不同的實體用統(tǒng)一的模型來處理。傳統(tǒng)識別方法并沒有考慮到所識別實體在Web中的一些顯示結(jié)構(gòu)特征，這樣對于 Web實體的特征表示就會不全面。另外一點，傳統(tǒng)識別方法對Web命名實體的識別會針對不同實體建立不同模型，這樣就無法對那些到底是單獨實體還是其他復(fù)雜實體的一個成分這種情況進行處理。同時建立多個模型也會大大增加識別的時間復(fù)雜度。最后一點，傳統(tǒng)方法在訓(xùn)練過程中需要大量文本數(shù)據(jù)，所以模型過于依賴訓(xùn)練文本集的大小。已有的命名實體識別模型在訓(xùn)練樣本上花費的時間太大。目前中文命名實體的識別中對簡單實體識別效果較好，對復(fù)雜實體，尤其是對于嵌套的復(fù)雜實體，識別效率和準(zhǔn)確率較低。本發(fā)明項目組對國內(nèi)外專利文獻和公開發(fā)表的期刊論文檢索，再尚未發(fā)現(xiàn)與本發(fā)明密切相關(guān)和一樣的報道或文獻。

發(fā)明內(nèi)容
本發(fā)明是一種基于統(tǒng)計模型的命名實體識別方法，主要是對Web文檔進行預(yù)處理，為后面的信息抽取，機器翻譯和問答系統(tǒng)提供了基本保障。本發(fā)明主要針對Web上的命名實體利用統(tǒng)計模型進行命名實體識別。本發(fā)明要解決的主要問題是現(xiàn)有Web中文命名實體的識別，尤其是對復(fù)雜實體的識別精度不夠高，不夠準(zhǔn)的問題，。下面對本發(fā)明進行詳細說明本發(fā)明是一種基于統(tǒng)計模型的Web命名實體識別方法，其特征在于所述方法包括以下步驟A.將Web文本原始語料進行分詞的預(yù)處理，并將原始文本映射到一個抽象符號集上，為之后的機器學(xué)習(xí)，進行文本的符號化描述做準(zhǔn)備；B.對命名實體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示，建立命名實體的特征庫，使用MFVSM的多特征矢量的特征表示方法，對Web頁面的各命名實體進行特征提?。籆.應(yīng)用概率統(tǒng)計算法建立MR-GHMM模型，利用推廣的Baum-WeIch算法計算初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率，即解決MR-GHMM的學(xué)習(xí)問題；D.結(jié)合Web命名實體的多特征，將一種改進的kick-off模型引入GHMM模型的計算中，采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果，并對各命名實體標(biāo)注，實現(xiàn)適用于多特征的Web命名實體識別；E. MR-GHMM模型將Web命名實體識別過程作為二層來處理，第一層進行簡單實體標(biāo)注；第二層進行復(fù)雜嵌套實體識別，利用MR-GHMM對其轉(zhuǎn)移概率計算，將第一層的標(biāo)注結(jié)果作為第二層處理的輸入，在第一層識別出來的簡單實體基礎(chǔ)上進行復(fù)雜嵌套實體識別。在現(xiàn)有方法中，一般采用單一文本特征來進行實體的特征描述，同時模型的建立只是針對單獨實體。已有的命名實體識別模型在訓(xùn)練樣本上花費的時間太大。本發(fā)明針對 GHMM統(tǒng)計模型的最大概率求解進行了改進，從而來優(yōu)化訓(xùn)練的效率。另一方面針對Web實體的特點，采用實體的結(jié)構(gòu)特征和文本特征來進行Web命名實體的多特征表示，提高識別精度。本發(fā)明的實現(xiàn)還在于步驟B中的命名實體特征提取包括如下步驟Bi.首先對網(wǎng)頁進行Web命名實體的顯示風(fēng)格表示，形成結(jié)構(gòu)特征矢量^s ；B2.再對網(wǎng)頁的Web命名實體進行文本特征表示，將文本特征轉(zhuǎn)換為一個有限的特征矢量；B3.根據(jù)樣本數(shù)據(jù)進行訓(xùn)練，使用MFVSM進行Web頁面的各命名實體的多特征矢量特征表示:F, =[F,%F；]，實現(xiàn)命名實體的特征提取。本發(fā)明將Web文本的結(jié)構(gòu)特征和文本特征相結(jié)合進行實體的多特征表示，從而能夠更全面的表示出Web文本中實體的特征。為后續(xù)實體識別打好基礎(chǔ)。本發(fā)明的實現(xiàn)還在于所述步驟C中的建立MR-GHMM模型包括如下步驟Cl.計算MR-GHMM模型的參數(shù)；C2.根據(jù)特征庫中建立好的特征表示，對原始預(yù)料進行訓(xùn)練，得到命名實體的轉(zhuǎn)移概率，從而得到模型的概率P ；C3.對于給定模型λ，找出使P(0，Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
HMM是一種在自然語言處理領(lǐng)域中被廣泛應(yīng)用的統(tǒng)計模型。將其擴展為廣義隱馬爾科夫模型GHMM從而考慮更多的特征表示，從而更加適合于中文命名實體識別中的人名識別、地名識別以及機構(gòu)名識別等復(fù)雜多特征實體的識別。本發(fā)明的實現(xiàn)還在于所述步驟D中的Web命名實體的識別包括如下步驟Dl.用Viterbi算法進行特征詞自動標(biāo)注，即從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果；D2.對于P(Tn)的計算采用基于概率統(tǒng)計的自然語言處理(n-gram語言模型)，計算一個句子Tn= (ti;t2,……，tm)的概率
權(quán)利要求
1.一種基于統(tǒng)計模型的Web命名實體識別方法，其特征在于所述方法包括以下步驟A.將Web文本原始語料進行分詞的預(yù)處理，并將原始文本映射到一個抽象符號集上，為之后的機器學(xué)習(xí)，進行文本的符號化描述做準(zhǔn)備；B.對命名實體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示，建立命名實體的特征庫，使用 MFVSM的多特征矢量的特征表示方法，對Web頁面的各命名實體進行特征提取；C.應(yīng)用概率統(tǒng)計算法建立MR-GHMM模型，利用推廣的Baum-Welch算法計算模型的初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率，即解決MR-GHMM的學(xué)習(xí)問題；D.結(jié)合Web命名實體的多特征，將一種改進的back-off模型引入GHMM模型的計算中，采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果，并對各命名實體標(biāo)注，實現(xiàn)適用于多特征的Web命名實體識別；E.MR-GHMM模型將Web命名實體識別過程作為二層來處理，第一層進行簡單實體標(biāo)注；第二層進行復(fù)雜嵌套實體識別，利用MR-GHMM對其轉(zhuǎn)移概率計算，將第一層的標(biāo)注結(jié)果作為第二層處理的輸入，在第一層識別出來的簡單實體基礎(chǔ)上進行復(fù)雜嵌套實體識別。
2.根據(jù)權(quán)利要求1所述的基于統(tǒng)計模型的Web命名實體識別方法，其特征在于所述步驟1. 2中的命名實體特征提取包括如下步驟Bi.首先對網(wǎng)頁進行Web命名實體的顯示風(fēng)格表示，形成結(jié)構(gòu)特征矢量廠‘； B2.再對網(wǎng)頁的Web命名實體進行文本特征表示，將文本特征轉(zhuǎn)換為一個有限的特征矢量廠、B3.根據(jù)樣本數(shù)據(jù)進行訓(xùn)練，使用MFVSM進行Web頁面的各命名實體的多特征矢量特征表示:F,，實現(xiàn)命名實體的特征提取。
3.根據(jù)權(quán)利要求1或2所述的基于統(tǒng)計模型的Web命名實體識別方法，其特征在于所述步驟1. 3中的建立MR-GHMM模型包括如下步驟Cl.計算MR-GHMM模型的參數(shù)；C2.根據(jù)特征庫中建立好的特征表示，對原始預(yù)料進行訓(xùn)練，得到命名實體的轉(zhuǎn)移概率，從而得到模型的概率P;C3.對于給定模型λ，找出使P(0，Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
4.根據(jù)權(quán)利要求3所述的基于統(tǒng)計模型的Web命名實體識別方法，其特征在于所述步驟1. 4中的Web命名實體的識別包括如下步驟Dl.用Viterbi算法進行特征詞自動標(biāo)注，S卩從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果；D2.對于P(Tn)的計算采用基于概率統(tǒng)計的自然語言處理，計算一個句子Tn= (ti; t2，……，tm)的概率T* = arg max log P(Tn |G") = arg max(log P(T" )-JlogP(i,) + X logP(i, | Gn))T T /=1 i=l其中Tn = (ti; t2，……，tm)是Gn = (gl, g2,……，gm)某個可能的特征詞標(biāo)注序列；D3.對于;|G")的計算方法，采用一種改進的kick-ofT模型進行計算，改進的 /=1kick-off模型的表示如下
全文摘要
本發(fā)明是一種基于統(tǒng)計模型的Web命名實體識別方法，用結(jié)構(gòu)和文本特征對Web命名實體進行多特征表示；本發(fā)明將統(tǒng)計方法和規(guī)則方法相結(jié)合，采用改進的MR-GHMM來優(yōu)化訓(xùn)練的效率；用改進隱馬爾可夫的模型對實體進行標(biāo)注，對各命名實體標(biāo)注，實現(xiàn)實體識別；對Web復(fù)雜命名實體識別過程作為二層來處理，將第一層的標(biāo)注結(jié)果作為第二層處理的輸入進行復(fù)雜嵌套實體識別。本發(fā)明與原有識別算法相比，該算法的識別準(zhǔn)確率提高了，模型訓(xùn)練的時間復(fù)雜度也大幅降低。通過對Web命名實體的多特征表示，針對不同領(lǐng)域的實體特征進行修改，就可以應(yīng)用與Web上不同領(lǐng)域的命名實體進行識別。
文檔編號G06F17/27GK102314417SQ201110284429
公開日2012年1月11日申請日期2011年9月22日優(yōu)先權(quán)日2011年9月22日
發(fā)明者劉志鏡, 姚勇, 曲建銘, 朱旭東, 王煒華, 王燕, 王縱虎, 王靜, 賀文華, 趙輝, 陳東輝申請人:西安電子科技大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王靜;劉志鏡;曲建銘;王燕;賀文華;王煒華;王縱虎;陳東輝;姚勇;朱旭東;趙輝
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)更新裝置和數(shù)據(jù)更新方法
上一篇：基于Retinex理論的復(fù)雜光照下的人眼檢測方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

命名實體識別相關(guān)技術(shù)

中文命名實體識別相關(guān)技術(shù)

命名實體識別工具相關(guān)技術(shù)

中文命名實體識別工具相關(guān)技術(shù)

命名實體識別算法相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于統(tǒng)計模型的Web命名實體識別方法