午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法

文檔序號:9417340閱讀:616來源:國知局
一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,特別是涉及中文信息抽取和開放式中文關(guān)系抽取。
【背景技術(shù)】
[0002]開放式關(guān)系抽取是指自動地從文本中抽取出實體以及實體間的語義關(guān)系,其不需預(yù)先定義關(guān)系類型,直接使用文本中的詞匯作為關(guān)系元組中的實體和關(guān)系詞。例如,從如下例句“奧巴馬畢業(yè)于哥倫比亞大學(xué)”中,可以抽取出如下的三元關(guān)系元組:(奧巴馬,畢業(yè),哥倫比亞大學(xué))。開放式實體關(guān)系抽取是知識庫構(gòu)建的基礎(chǔ),對于智能信息檢索和應(yīng)用有十分重要的實際應(yīng)用價值。
[0003]開放式關(guān)系抽取方法主要分為三種類型,分別是基于詞性的方法,基于語義角色標(biāo)注的方法,和基于依存分析的方法?;谠~性的關(guān)系抽取方法的主要問題在于它僅能夠抽取關(guān)系詞和實體相連的關(guān)系元組,難于抽取實體和關(guān)系詞存在一定距離的關(guān)系元組?;谡Z義角色標(biāo)注的關(guān)系抽取準(zhǔn)確率相對較高,但這類方法的計算復(fù)雜度較高,難以適應(yīng)實際大規(guī)模數(shù)據(jù)處理需求。采用基于依存分析的關(guān)系抽取方法可以較好地解決上述問題。依存分析是指利用依存語法將句子分析成描述各詞語間依存關(guān)系的依存句法樹,即指出了詞語間的句法搭配關(guān)系,這種搭配關(guān)系是與語義相關(guān)聯(lián)的?,F(xiàn)有的一些基于依存分析的關(guān)系抽取方法主要是預(yù)先定義有限的關(guān)系模式然后抽取關(guān)系元組,因此抽取的關(guān)系元組召回率難以滿足實際應(yīng)用。同時也存在一些開放式關(guān)系抽取系統(tǒng),學(xué)習(xí)和使用大量依存關(guān)系模式抽取關(guān)系元組,但在學(xué)習(xí)的過程尋找關(guān)系元組對應(yīng)的語句容易產(chǎn)生錯誤,降低了關(guān)系模式的準(zhǔn)確性。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供了一種開放式中文關(guān)系抽取方法。該方法能夠從已有知識中自動學(xué)習(xí)得出實體間的依存關(guān)系模式,進而實現(xiàn)無需限定關(guān)系類別的開放式關(guān)系抽取。該方法的主要特點在于模式學(xué)習(xí)的過程不依賴于特定的人工標(biāo)注語料,可有效提高面向開放域的中文實體關(guān)系抽取的準(zhǔn)確率和召回率。
[0005]本發(fā)明提出的基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法,包括:基于已有知識庫獲取高質(zhì)量的實體關(guān)系元組和相應(yīng)的句子作為訓(xùn)練語料,通過本專利提出的模式學(xué)習(xí)方法得到實體和關(guān)系詞之間的依存路徑模式;對待抽取文本進行分詞、詞性標(biāo)注和依存分析等預(yù)處理,并借助之前學(xué)習(xí)得到的關(guān)系模式進行實體關(guān)系抽??;采用機器學(xué)習(xí)的方法對從中文語料中自動抽取出的實體關(guān)系進行質(zhì)量評估,得到高質(zhì)量的實體關(guān)系元組。
[0006]其中,所述的關(guān)系模式學(xué)習(xí)方法,包括:
[0007]通過已有知識庫或者百科網(wǎng)頁信息框獲取高質(zhì)量的實體關(guān)系元組和相應(yīng)的語句作為訓(xùn)練語料,同時也可以利用中文關(guān)系抽取系統(tǒng)抽取并選擇高質(zhì)量的關(guān)系元組,以構(gòu)建包含關(guān)系元組和相應(yīng)語句的訓(xùn)練語料;利用自然語言處理工具對訓(xùn)練文本進行分詞、詞性標(biāo)注和依存分析預(yù)處理;利用大規(guī)模高質(zhì)量訓(xùn)練語料的依存分析結(jié)果和高質(zhì)量的關(guān)系元組,學(xué)習(xí)得到實體和關(guān)系詞間的依存路徑模式。
[0008]其中,所述的利用學(xué)習(xí)得到的關(guān)系模式進行實體關(guān)系抽取的方法,包括:
[0009]利用語句的依存分析樹進行候選實體核心詞識別以及對實體進行擴展;對待抽取語句選擇合適的模式抽取關(guān)系元組;對抽取的關(guān)系核心詞進行擴展以及將抽取的二元關(guān)系進行多元擴展。
[0010]本發(fā)明的發(fā)明目的是這樣實現(xiàn)的:本發(fā)明首先通過高質(zhì)量的實體關(guān)系元組和相應(yīng)的句子語料學(xué)習(xí)得到大量依存路徑關(guān)系模式,然后使用關(guān)系模式抽取大量的關(guān)系元組,最終對抽取的關(guān)系元組進行質(zhì)量評估選并擇其中高質(zhì)量的關(guān)系元組。
[0011]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果主要有以下幾點:
[0012]本發(fā)明能夠在不限定關(guān)系類別的情況下實現(xiàn)開放式中文關(guān)系抽取,實體關(guān)系抽取準(zhǔn)確率和召回率比現(xiàn)有技術(shù)要好。
[0013]本發(fā)明提出的依存路徑模式學(xué)習(xí)方法具有獨創(chuàng)性,通過學(xué)習(xí)得到的依存路徑模式不僅考慮到實體所在上下文的詞法和句法信息,而且包含詞匯的語義信息。與相關(guān)技術(shù)相比,該方法更為先進,關(guān)系抽取結(jié)果也更為可靠。
【附圖說明】
[0014]圖1為本發(fā)明提出的基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法的總體流程圖。
[0015]圖2為本發(fā)明中關(guān)于依存路徑模式自學(xué)習(xí)方法的流程圖。
[0016]圖3為本發(fā)明中基于模式匹配關(guān)系抽取的流程圖。
【具體實施方式】
[0017]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0018]圖1為本發(fā)明的一個實施例,即本發(fā)明公開的一種基于模式自學(xué)習(xí)的中文開放式關(guān)系抽取方法的總體流程圖。如圖1所示,本實施例提供的開放式關(guān)系抽取方法,具體可以包括如下步驟:首先利用高質(zhì)量的實體關(guān)系元組和相應(yīng)的句子的語料,學(xué)習(xí)得到大量實體和關(guān)系詞之間的依存路徑模式;然后對待抽取文本進行自然語言預(yù)處理,并利用學(xué)習(xí)得到的關(guān)系模式進行實體關(guān)系抽??;最后采用機器學(xué)習(xí)的方法對從中文語料中自動抽取出的實體關(guān)系進行質(zhì)量評估,得到高質(zhì)量的實體關(guān)系元組。為便于理解,首先對下文中使用的英文符號進行說明:
[0019](I)詞性標(biāo)注標(biāo)簽表示動詞,η表示名詞,P表示介詞,j表示縮寫詞、i表示習(xí)語、nr表示人名、ns表示地點名、nt表示組織名、nz表示其他名詞、r表示代詞。
[0020](2)依存分析標(biāo)簽:SBV (subject)表示主語,Root (root of sentence)表示句子的核心詞,VOB(direct object)表示直接賓語,CMP(complement)表示補足語。
[0021]步驟101、訓(xùn)練語料關(guān)系模式學(xué)習(xí):
[0022]利用大規(guī)模高質(zhì)量關(guān)系元組和對應(yīng)語句的訓(xùn)練語料,通過學(xué)習(xí)得到實體和關(guān)系詞之間的依存路徑模式。關(guān)系模式學(xué)習(xí)的具體步驟如圖2所示,包括如下三個步驟:獲取訓(xùn)練語料,對訓(xùn)練語料進行預(yù)處理,學(xué)習(xí)得到依存路徑模式。
[0023]步驟201、訓(xùn)練語料的獲取:
[0024]本發(fā)明采用如下兩種方法獲取訓(xùn)練語料。一種方法是利用知識庫中已有的高質(zhì)量關(guān)系元組和百科頁面信息框中的關(guān)系元組,通過網(wǎng)絡(luò)爬蟲獲得包含每個關(guān)系元組中實體和關(guān)系詞的對應(yīng)語句,以構(gòu)建關(guān)系元組和相應(yīng)語句的訓(xùn)練語料用于模式學(xué)習(xí)。另一種方法是采用已有的中文關(guān)系抽取系統(tǒng),從大規(guī)模開放語料中抽取實體關(guān)系,選擇其中置信度較高的關(guān)系元組和其對應(yīng)語句構(gòu)建訓(xùn)練數(shù)據(jù)。一條訓(xùn)練語料包括兩個部分:關(guān)系元組和相應(yīng)的原始語句。例如:從如下語句“巴育當(dāng)選為總理”中可以抽取出如下的實體關(guān)系元組(巴育,當(dāng)選,總統(tǒng)),該關(guān)系元組和該條語句共同構(gòu)成本發(fā)明所使用的一條訓(xùn)練語料。
[0025]步驟202、對訓(xùn)練文本進行自然語言預(yù)處理:
[0026]利用已有的自然語言處理工具(例如Zpar或ICTCLAS等開源工具)對訓(xùn)練語料進行分詞和詞性標(biāo)注。例如,對上文中使用的例句“巴育當(dāng)選為總理”進行處理,得到的結(jié)果為“巴育_nr當(dāng)選_y為_y總統(tǒng)_n”。其中,分詞的結(jié)果以空格分隔,單詞后面的下劃線之后所跟的符號表示該單詞的詞性。得到分詞結(jié)果之后,使用依存分析工具對分詞和詞性標(biāo)注結(jié)果進行依存分析。
[0027]步驟203、依存路徑模式學(xué)習(xí):
[0028]利用步驟201獲取的高質(zhì)量訓(xùn)練語料,經(jīng)步驟202得到依存分析結(jié)果,可以實現(xiàn)已知關(guān)系元組和相應(yīng)語句的依存分析結(jié)果之間的匹配,從而自動地學(xué)習(xí)到各種實體和關(guān)系詞之間的依存路徑模式。本發(fā)明學(xué)習(xí)得到的模式定義為:訓(xùn)練語句依存分析結(jié)果中的實體和關(guān)系詞間的依存路徑以及路徑中詞匯的詞性。例如,對于上文中使用的例句“巴育當(dāng)選為總理”,得到的依存路徑和詞性模式為“SBV(nr) -Root (v) -VOB (η) ”,其中Root (v)表示關(guān)系,SBV(nr)和VOB(n)表示關(guān)系元組中的實體??紤]到通過大規(guī)模學(xué)習(xí)得到的依存路徑模式可能存在分歧和矛盾(例如某些具有細(xì)微差別的模式其實具有相同的語法含義),本發(fā)明提出進一步根據(jù)詞性,對學(xué)習(xí)得到的模式進行聚類,以提高模式對復(fù)雜自然語言環(huán)境的適用性和覆蓋率。由于關(guān)系元組中的實體是名詞性成分,因此本方法主要將模式中名詞性成分進行聚合,具體實施方法是將詞性標(biāo)簽為j、
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1