午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于統(tǒng)計模型的Web命名實體識別方法

文檔序號:6566114閱讀:707來源:國知局
專利名稱:基于統(tǒng)計模型的Web命名實體識別方法
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,主要涉及Web信息抽取領(lǐng)域,尤其涉及Web命名實體識別。具體是一種基于統(tǒng)計模型的Web命名實體識別方法,主要用來識別出Web命名實體,實現(xiàn)對網(wǎng)頁信息的獲取以及預(yù)處理。
背景技術(shù)
Web命名實體識別技術(shù)主要針對Web頁面的信息進行最基本數(shù)據(jù)的獲取。通過獲得數(shù)據(jù)從而能對網(wǎng)頁的內(nèi)容進行識別,也為后續(xù)的各種應(yīng)用如信息抽取、自動問答、及其翻譯等都需要命名實體識別技術(shù)的支撐,這也是自然語言處理中一項基本工作。在網(wǎng)絡(luò)技術(shù)飛速發(fā)展,并廣泛應(yīng)用于各個領(lǐng)域的當(dāng)今,對它的研究非常重要。一般來說,命名實體識別就是對一篇或多篇待處理的文本,識別出其中出現(xiàn)的命名實體,比如人名、地名、機構(gòu)名、 時間日期、數(shù)字等。目前,對英文命名實體識別已經(jīng)取得了很好的效果,對它的研究與開發(fā)主要集中在學(xué)習(xí)領(lǐng)域,包括隱馬爾可夫模型、最大熵模型和支持向量機等,一些系統(tǒng)已經(jīng)可以實際應(yīng)用。在第七屆信息理解會議(MUC-7)時,最好的英文命名實體識別系統(tǒng)已經(jīng)達到了 95%的查全率和92 %的查準(zhǔn)率。與英文命名實體識別相比,中文命名實體識別的效果還差很多。 第二屆多語種實體評價會議(MET-2)時,最好的中文命名實體識別系統(tǒng)在人名、地名、機構(gòu)名的查準(zhǔn)率分別為66、89、89%,查全率分別為92、91、88%。目前中文命名實體識別從方法上來說,主要是基于規(guī)則和統(tǒng)計這兩種方法?;谝?guī)則的方法一般采用特征字或特征詞觸發(fā)的方式來進行命名實體識別?;诮y(tǒng)計的方法主要通過,對大規(guī)模語料庫命名實體及其上下文進行統(tǒng)計分析,構(gòu)建統(tǒng)計模型進行命名實體識別。早期的中文命名實體識別模型包含數(shù)個子模型,每個子模型處理某一類實體,如對人名的識別可能使用基于規(guī)則的方法,對地名、機構(gòu)名的識別可能使用基于統(tǒng)計的方法。 例如,隱馬爾可夫模型、概率上下文無關(guān)語法、基于決策樹的語言模型、最大熵語言模型、條件隨機場模型等。隨后就出現(xiàn)了各種改進模型,對不同的實體用統(tǒng)一的模型來處理。傳統(tǒng)識別方法并沒有考慮到所識別實體在Web中的一些顯示結(jié)構(gòu)特征,這樣對于 Web實體的特征表示就會不全面。另外一點,傳統(tǒng)識別方法對Web命名實體的識別會針對不同實體建立不同模型,這樣就無法對那些到底是單獨實體還是其他復(fù)雜實體的一個成分這種情況進行處理。同時建立多個模型也會大大增加識別的時間復(fù)雜度。最后一點,傳統(tǒng)方法在訓(xùn)練過程中需要大量文本數(shù)據(jù),所以模型過于依賴訓(xùn)練文本集的大小。已有的命名實體識別模型在訓(xùn)練樣本上花費的時間太大。目前中文命名實體的識別中對簡單實體識別效果較好,對復(fù)雜實體,尤其是對于嵌套的復(fù)雜實體,識別效率和準(zhǔn)確率較低。本發(fā)明項目組對國內(nèi)外專利文獻和公開發(fā)表的期刊論文檢索,再尚未發(fā)現(xiàn)與本發(fā)明密切相關(guān)和一樣的報道或文獻。

發(fā)明內(nèi)容
本發(fā)明是一種基于統(tǒng)計模型的命名實體識別方法,主要是對Web文檔進行預(yù)處理,為后面的信息抽取,機器翻譯和問答系統(tǒng)提供了基本保障。本發(fā)明主要針對Web上的命名實體利用統(tǒng)計模型進行命名實體識別。本發(fā)明要解決的主要問題是現(xiàn)有Web中文命名實體的識別,尤其是對復(fù)雜實體的識別精度不夠高,不夠準(zhǔn)的問題,。下面對本發(fā)明進行詳細說明本發(fā)明是一種基于統(tǒng)計模型的Web命名實體識別方法,其特征在于所述方法包括以下步驟A.將Web文本原始語料進行分詞的預(yù)處理,并將原始文本映射到一個抽象符號集上,為之后的機器學(xué)習(xí),進行文本的符號化描述做準(zhǔn)備;B.對命名實體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示,建立命名實體的特征庫,使用MFVSM的多特征矢量的特征表示方法,對Web頁面的各命名實體進行特征提?。籆.應(yīng)用概率統(tǒng)計算法建立MR-GHMM模型,利用推廣的Baum-WeIch算法計算初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率,即解決MR-GHMM的學(xué)習(xí)問題;D.結(jié)合Web命名實體的多特征,將一種改進的kick-off模型引入GHMM模型的計算中,采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果,并對各命名實體標(biāo)注,實現(xiàn)適用于多特征的Web命名實體識別;E. MR-GHMM模型將Web命名實體識別過程作為二層來處理,第一層進行簡單實體標(biāo)注;第二層進行復(fù)雜嵌套實體識別,利用MR-GHMM對其轉(zhuǎn)移概率計算,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入,在第一層識別出來的簡單實體基礎(chǔ)上進行復(fù)雜嵌套實體識別。在現(xiàn)有方法中,一般采用單一文本特征來進行實體的特征描述,同時模型的建立只是針對單獨實體。已有的命名實體識別模型在訓(xùn)練樣本上花費的時間太大。本發(fā)明針對 GHMM統(tǒng)計模型的最大概率求解進行了改進,從而來優(yōu)化訓(xùn)練的效率。另一方面針對Web實體的特點,采用實體的結(jié)構(gòu)特征和文本特征來進行Web命名實體的多特征表示,提高識別精度。本發(fā)明的實現(xiàn)還在于步驟B中的命名實體特征提取包括如下步驟Bi.首先對網(wǎng)頁進行Web命名實體的顯示風(fēng)格表示,形成結(jié)構(gòu)特征矢量^s ;B2.再對網(wǎng)頁的Web命名實體進行文本特征表示,將文本特征轉(zhuǎn)換為一個有限的特征矢量;B3.根據(jù)樣本數(shù)據(jù)進行訓(xùn)練,使用MFVSM進行Web頁面的各命名實體的多特征矢量特征表示:F, =[F,%F;],實現(xiàn)命名實體的特征提取。本發(fā)明將Web文本的結(jié)構(gòu)特征和文本特征相結(jié)合進行實體的多特征表示,從而能夠更全面的表示出Web文本中實體的特征。為后續(xù)實體識別打好基礎(chǔ)。本發(fā)明的實現(xiàn)還在于所述步驟C中的建立MR-GHMM模型包括如下步驟Cl.計算MR-GHMM模型的參數(shù);C2.根據(jù)特征庫中建立好的特征表示,對原始預(yù)料進行訓(xùn)練,得到命名實體的轉(zhuǎn)移概率,從而得到模型的概率P ;C3.對于給定模型λ,找出使P(0,Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
HMM是一種在自然語言處理領(lǐng)域中被廣泛應(yīng)用的統(tǒng)計模型。將其擴展為廣義隱馬爾科夫模型GHMM從而考慮更多的特征表示,從而更加適合于中文命名實體識別中的人名識別、地名識別以及機構(gòu)名識別等復(fù)雜多特征實體的識別。本發(fā)明的實現(xiàn)還在于所述步驟D中的Web命名實體的識別包括如下步驟Dl.用Viterbi算法進行特征詞自動標(biāo)注,即從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果;D2.對于P(Tn)的計算采用基于概率統(tǒng)計的自然語言處理(n-gram語言模型),計算一個句子Tn= (ti;t2,……,tm)的概率
權(quán)利要求
1.一種基于統(tǒng)計模型的Web命名實體識別方法,其特征在于所述方法包括以下步驟A.將Web文本原始語料進行分詞的預(yù)處理,并將原始文本映射到一個抽象符號集上, 為之后的機器學(xué)習(xí),進行文本的符號化描述做準(zhǔn)備;B.對命名實體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示,建立命名實體的特征庫,使用 MFVSM的多特征矢量的特征表示方法,對Web頁面的各命名實體進行特征提取;C.應(yīng)用概率統(tǒng)計算法建立MR-GHMM模型,利用推廣的Baum-Welch算法計算模型的初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率,即解決MR-GHMM的學(xué)習(xí)問題;D.結(jié)合Web命名實體的多特征,將一種改進的back-off模型引入GHMM模型的計算中, 采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果,并對各命名實體標(biāo)注,實現(xiàn)適用于多特征的Web命名實體識別;E.MR-GHMM模型將Web命名實體識別過程作為二層來處理,第一層進行簡單實體標(biāo)注; 第二層進行復(fù)雜嵌套實體識別,利用MR-GHMM對其轉(zhuǎn)移概率計算,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入,在第一層識別出來的簡單實體基礎(chǔ)上進行復(fù)雜嵌套實體識別。
2.根據(jù)權(quán)利要求1所述的基于統(tǒng)計模型的Web命名實體識別方法,其特征在于所述步驟1. 2中的命名實體特征提取包括如下步驟Bi.首先對網(wǎng)頁進行Web命名實體的顯示風(fēng)格表示,形成結(jié)構(gòu)特征矢量廠‘; B2.再對網(wǎng)頁的Web命名實體進行文本特征表示,將文本特征轉(zhuǎn)換為一個有限的特征矢量廠、B3.根據(jù)樣本數(shù)據(jù)進行訓(xùn)練,使用MFVSM進行Web頁面的各命名實體的多特征矢量特征表示:F,,實現(xiàn)命名實體的特征提取。
3.根據(jù)權(quán)利要求1或2所述的基于統(tǒng)計模型的Web命名實體識別方法,其特征在于 所述步驟1. 3中的建立MR-GHMM模型包括如下步驟Cl.計算MR-GHMM模型的參數(shù);C2.根據(jù)特征庫中建立好的特征表示,對原始預(yù)料進行訓(xùn)練,得到命名實體的轉(zhuǎn)移概率,從而得到模型的概率P;C3.對于給定模型λ,找出使P(0,Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
4.根據(jù)權(quán)利要求3所述的基于統(tǒng)計模型的Web命名實體識別方法,其特征在于所述步驟1. 4中的Web命名實體的識別包括如下步驟Dl.用Viterbi算法進行特征詞自動標(biāo)注,S卩從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果;D2.對于P(Tn)的計算采用基于概率統(tǒng)計的自然語言處理,計算一個句子Tn= (ti; t2,……,tm)的概率T* = arg max log P(Tn |G") = arg max(log P(T" )-JlogP(i,) + X logP(i, | Gn))T T /=1 i=l其中Tn = (ti; t2,……,tm)是Gn = (gl, g2,……,gm)某個可能的特征詞標(biāo)注序列;D3.對于;|G")的計算方法,采用一種改進的kick-ofT模型進行計算,改進的 /=1kick-off模型的表示如下
全文摘要
本發(fā)明是一種基于統(tǒng)計模型的Web命名實體識別方法,用結(jié)構(gòu)和文本特征對Web命名實體進行多特征表示;本發(fā)明將統(tǒng)計方法和規(guī)則方法相結(jié)合,采用改進的MR-GHMM來優(yōu)化訓(xùn)練的效率;用改進隱馬爾可夫的模型對實體進行標(biāo)注,對各命名實體標(biāo)注,實現(xiàn)實體識別;對Web復(fù)雜命名實體識別過程作為二層來處理,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入進行復(fù)雜嵌套實體識別。本發(fā)明與原有識別算法相比,該算法的識別準(zhǔn)確率提高了,模型訓(xùn)練的時間復(fù)雜度也大幅降低。通過對Web命名實體的多特征表示,針對不同領(lǐng)域的實體特征進行修改,就可以應(yīng)用與Web上不同領(lǐng)域的命名實體進行識別。
文檔編號G06F17/27GK102314417SQ201110284429
公開日2012年1月11日 申請日期2011年9月22日 優(yōu)先權(quán)日2011年9月22日
發(fā)明者劉志鏡, 姚勇, 曲建銘, 朱旭東, 王煒華, 王燕, 王縱虎, 王靜, 賀文華, 趙輝, 陳東輝 申請人:西安電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1