午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種命名實(shí)體識別方法及裝置的制造方法

文檔序號:9787434閱讀:406來源:國知局
一種命名實(shí)體識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于命名實(shí)體技術(shù)領(lǐng)域,更具體的說,尤其涉及一種命名實(shí)體識別方法及 裝置。
【背景技術(shù)】
[0002] 命名實(shí)體是指具有特定意義的實(shí)體,如人名李三,而命名實(shí)體識別則是識別文本 中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名和專有名詞等,這些識別出的實(shí)體作 為后續(xù)信息抽取任務(wù)的輸入,如可以作為關(guān)系抽取、事件抽取、細(xì)粒度的情感分析等信息抽 取任務(wù)的輸入,因此命名實(shí)體識別結(jié)果的好壞直接影響后續(xù)信息抽取任務(wù)的效果。
[0003] 目前命名實(shí)體識別方法已經(jīng)有很多,如專利號為201310201310674046.7的識別方 法,其過程為:對待處理文本中的特殊詞進(jìn)行識別;對待處理文本中的型號實(shí)體進(jìn)行識別, 并用預(yù)設(shè)的數(shù)字串將待處理文本中被識別出為型號實(shí)體的特殊詞替換,然后在此基礎(chǔ)上進(jìn) 行商品實(shí)體、商品分類實(shí)體、品牌實(shí)體、商品屬性名實(shí)體以及商品屬性值實(shí)體等實(shí)體的識 另Ij,這種識別方法主要針對一般文本,而社交網(wǎng)絡(luò)中的文本主要是短文本,如微博或者QQ這 種社交網(wǎng)絡(luò)中,用戶發(fā)布的文本多數(shù)是短文本,且社交網(wǎng)絡(luò)中用戶會彼此關(guān)注,但是目前的 命名實(shí)體識別方法并沒有基于這一特征,因此急需一種適用于微博或者QQ這些社交網(wǎng)絡(luò)的 命名實(shí)體識別方法。

【發(fā)明內(nèi)容】

[0004] 有鑒于此,本發(fā)明的目的在于提供一種命名實(shí)體識別方法及裝置,用于基于社交 網(wǎng)絡(luò)信息進(jìn)行命名實(shí)體的識別,以適用于社交網(wǎng)絡(luò)。技術(shù)方案如下:
[0005] 本發(fā)明提供一種命名實(shí)體識別方法,所述方法包括:
[0006] 基于初始構(gòu)建的第一序列標(biāo)注模型,對訓(xùn)練文檔和測試文檔進(jìn)行序列標(biāo)注,得到 每個訓(xùn)練文檔中每個第一詞的第一實(shí)體概率分布和每個測試文檔中每個第二詞的第二實(shí) 體概率分布;
[0007] 獲取每個第一詞在各自對應(yīng)的訓(xùn)練文檔中的第一上下文相似度以及每個第一詞 各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第一對象相似度;
[0008] 基于每個第一詞的所述第一實(shí)體概率分布、每個第一詞的所述第一上下文相似度 和每個第一詞的所述第一對象相似度,得到相對應(yīng)第一詞的第三實(shí)體概率分布;
[0009] 獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似度以及每個第二詞 各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度;
[0010] 基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所述第二上下文相似度 和每個第二詞的所述第二對象相似度,得到相對應(yīng)第二詞的第四實(shí)體概率分布;
[0011] 基于每個第一詞的第三實(shí)體概率分布,對所述第一序列標(biāo)注模型進(jìn)行重新訓(xùn)練, 得到第二序列標(biāo)注模型;
[0012] 將每個測試文檔中每個第二詞的第四實(shí)體概率分布作為相對應(yīng)測試文檔的觀測 變量,并基于所述第二序列標(biāo)注模型和所述測試文檔的觀測變量,對所述測試文檔進(jìn)行序 列標(biāo)注,得到所述測試文檔中每個第二詞的命名實(shí)體。
[0013] 優(yōu)選地,所述獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似度以及 每個第二詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度,包括:
[0014] 獲取詞袋U和詞袋V中共同具有的第二詞的數(shù)量以及所述詞袋U和詞袋V中第二詞 的總量,其中詞袋U為一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合,詞袋V為另一個第二詞對應(yīng)的 訓(xùn)練文檔的詞集合;
[0015] 將所述第二詞的數(shù)量與所述第二詞的總量的比值作為所述第二上下文相似度;
[0016] 基于所述每個訓(xùn)練文檔的第二上下文相似度,得到訓(xùn)練文檔所屬目標(biāo)對象之間的 第二對象相似度。
[0017] 優(yōu)選地,所述基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所述第二 上下文相似度和每個第二詞的所述第二對象相似度,得到相對應(yīng)第二詞的第四實(shí)體概率分 布,包括:
[0018] 基于第二詞的第二實(shí)體概率分布和第二詞的所述第二上下文相似度,獲取第二詞 的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,其中命名實(shí)體類標(biāo)簽c位于命名實(shí)體識別類 標(biāo)簽集合C中,且用于指示一種命名實(shí)體類型;
[0019] 基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,得到所述第二詞 的各個命名實(shí)體類型的概率之和;
[0020] 基于所述第二詞的各個命名實(shí)類型的概率之和,得到所述第二詞在所有測試文檔 中的命名實(shí)體概率分布;
[0021] 基于所述命名實(shí)體概率分布和第二詞的所述第二對象相似度,得到命名實(shí)體類標(biāo) 簽c的概率之和;
[0022] 基于所述命名實(shí)體類標(biāo)簽c的概率之和,得到第二詞的命名實(shí)體類型屬于命名實(shí) 體類標(biāo)簽c的概率分布;
[0023] 在得到第二詞的命名實(shí)體類型屬于命名實(shí)體識別類標(biāo)簽集合C中不同命名實(shí)體類 標(biāo)簽的概率分布的情況下,選取取值最大的概率分布為所述第四實(shí)體概率分布。
[0024] 優(yōu)選地,基于第二詞的第二實(shí)體概率分布和第二詞的所述第二上下文相似度,獲 取第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,包括:
[0025]基于公式 [0026]
[0027] 得到所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,其中w為第二詞、s 為一條測試文檔,u為測試文檔s所屬目標(biāo)對象,u'為非目標(biāo)對象、T為第二詞的實(shí)體類別分 布集合,P(c |t)為第二實(shí)體概率分布,γ是一個0-1函數(shù),用于判斷第二詞w是否出現(xiàn)在目標(biāo) 對象u所關(guān)注的u'中,ω是第二上下文相似度,Θ是一平滑因子,Z表示命名實(shí)體識類標(biāo)簽集 合C中每一個命名實(shí)體類標(biāo)簽c在第二詞w、目標(biāo)對象u、非目標(biāo)對象u'、測試文檔s以及每一 個第二詞w對實(shí)體類別分布集合T的情況下的概率之和;
[0028] 所述基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,得到所述第 二詞的各個命名實(shí)體類型的概率之和,包括:
[0029] 基于公式
[0030] Z(w,u,u7 ,S,T)= Z〇ecp(c I w,u,u7 ,S,T)= Σ Cec Σ Ses^(s ,u7 ) · p(c|w,u,u7 ,s,t)
[0031] 得到所述第二詞的各個命名實(shí)體類型的概率之和,其中S為測試文檔集合,β是一 個0-1函數(shù),用于判斷一條測試文檔是否屬于非目標(biāo)對象u';
[0032] 所述基于所述第二詞的各個命名實(shí)類型的概率之和,得到所述第二詞在所有測試 文檔中的命名實(shí)體概率分布,包括:
[0033]基于公式
[0034] p(c|w,u,u7 ,S,T)= ) · p(c|w,u,u7 ,s,T)/Z(w,u,u/ ,S,T)
[0035] 得到所述第二詞在所有測試文檔中的命名實(shí)體概率分布。
[0036] 優(yōu)選地,所述基于所述命名實(shí)體概率分布和第二詞的所述第二對象相似度,得到 命名實(shí)體類標(biāo)簽c的概率之和,包括:
[0037]基于公式
[0038]
[0039] 得到所述命名實(shí)體類標(biāo)簽c的概率之和,其中U是非目標(biāo)對象u'的集合,α是一個Ο-? 函數(shù), 判定目 標(biāo)對象 U 和非目 標(biāo)對象 U ' 之間是否是關(guān)注關(guān)系, 0 為第二對象相似度, Θ 是一 平滑因子;
[0040]
[0041] 所述基于所述命名實(shí)體類標(biāo)簽c的概率之和,得到第二詞的命名實(shí)體類型屬于命 名實(shí)體類標(biāo)簽c的概率分布,包括:
[0042] 基于公式
[0043] p(c|w)=p(c|w,U,U,S,T)= Σ u7 eu Σ Ses Σ teTandt=wP(c IwjUjU7jSjT) ?p(c|w,u, U7 ,s,T)
[0044] 得到所述二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率分布;
[0045] 所述在得到第二詞的命名實(shí)體類型屬于命名實(shí)體識別類標(biāo)簽集合C中不同命名實(shí) 體類標(biāo)簽的概率分布的情況下,選取取值最大的概率分布為所述第四實(shí)體概率分布,包括:
[0046]
;得到所述第四實(shí) 體概率分布。
[0047] 本發(fā)明還提供一種命名實(shí)體識別裝置,所述裝置包括:
[0048] 第一獲取單元,用于基于初始構(gòu)建的第一序列標(biāo)注模型,對訓(xùn)練文檔和測試文檔 進(jìn)行序列標(biāo)注,得到每個訓(xùn)練文檔中每個第一詞的第一實(shí)體概率分布和每個測試文檔中每 個第二詞的第二實(shí)體概率分布;
[0049] 第二獲取單元,用于獲取每個第一詞在各自對應(yīng)的訓(xùn)練文檔中的第一上下文相似 度以及每個第一詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第一對象相似度;
[0050]第三獲取單元,用于基于每個第一詞的所述第一實(shí)體概率分布、每個第一詞的所 述第一上下文相似度和每個第一詞的所述第一對象相似度,得到相對應(yīng)第一詞的第三實(shí)體 概率分布;
[0051 ]第四獲取單元,用于獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似 度以及每個第二詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度;
[0052] 第五獲取單元,用于基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所 述第二上下文相似度和每個第二詞的所述第二對象相似度,得到相對應(yīng)第二詞的第四實(shí)體 概率分布;
[0053] 訓(xùn)練單元,用于基于每個第一詞的第三實(shí)體概率分布,對所述第一序列標(biāo)注模型 進(jìn)行重新訓(xùn)練,得到第二序列標(biāo)注模型;
[0054] 測試單元,用于將每個測試文檔中每個第二詞的第四實(shí)體概率分布作為相對應(yīng)測 試文檔的觀測變量,并基于所述第二序列標(biāo)注模型和所述測試文檔的觀測變量,對所述測 試文檔進(jìn)行序列標(biāo)注,得到所述測試文檔中每個第二詞的命名實(shí)體。
[0055] 優(yōu)選地,所述第四獲取單元包括:
[0056] 第一獲取子單元,用于獲取詞袋u和詞袋V中共同具有的第二詞的數(shù)量以及所述詞 袋u和詞袋V中第二詞的總量,其中詞袋u為一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合,詞袋V為 另一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合;
[0057] 第二獲取子單元,用于將所述第二詞的數(shù)量與所述第二詞的總量的比值作為所述 第二上下文相似度;
[0058] 第三獲取子單元,用于基于所述每個訓(xùn)練文檔的第二上下文相似度,得到訓(xùn)練文 檔所屬目標(biāo)對象之間的第二對象相似度。
[0059]優(yōu)選地,所述第五獲取單元包括:
[0060] 第一概率獲取子單元,用于基于第二詞的第二實(shí)體概率分布和第二詞的所述第二 上下文相似度,獲取第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率,其中命名實(shí)體類 標(biāo)簽c位于命名實(shí)體識別類標(biāo)簽集合C中,且用于指示一種命名實(shí)體類型;
[0061] 第一概率和獲取子單元,用于基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo) 簽c的概率,得到所述第二
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1