一種命名實(shí)體識別方法及裝置的制造方法

文檔序號：9787434閱讀：406來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種命名實(shí)體識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于命名實(shí)體技術(shù)領(lǐng)域，更具體的說，尤其涉及一種命名實(shí)體識別方法及裝置。
【背景技術(shù)】
[0002] 命名實(shí)體是指具有特定意義的實(shí)體，如人名李三，而命名實(shí)體識別則是識別文本中具有特定意義的實(shí)體，主要包括人名、地名、機(jī)構(gòu)名和專有名詞等，這些識別出的實(shí)體作為后續(xù)信息抽取任務(wù)的輸入，如可以作為關(guān)系抽取、事件抽取、細(xì)粒度的情感分析等信息抽取任務(wù)的輸入，因此命名實(shí)體識別結(jié)果的好壞直接影響后續(xù)信息抽取任務(wù)的效果。
[0003] 目前命名實(shí)體識別方法已經(jīng)有很多，如專利號為201310201310674046.7的識別方法，其過程為:對待處理文本中的特殊詞進(jìn)行識別；對待處理文本中的型號實(shí)體進(jìn)行識別，并用預(yù)設(shè)的數(shù)字串將待處理文本中被識別出為型號實(shí)體的特殊詞替換，然后在此基礎(chǔ)上進(jìn) 行商品實(shí)體、商品分類實(shí)體、品牌實(shí)體、商品屬性名實(shí)體以及商品屬性值實(shí)體等實(shí)體的識另Ij，這種識別方法主要針對一般文本，而社交網(wǎng)絡(luò)中的文本主要是短文本，如微博或者QQ這種社交網(wǎng)絡(luò)中，用戶發(fā)布的文本多數(shù)是短文本，且社交網(wǎng)絡(luò)中用戶會彼此關(guān)注，但是目前的命名實(shí)體識別方法并沒有基于這一特征，因此急需一種適用于微博或者QQ這些社交網(wǎng)絡(luò)的命名實(shí)體識別方法。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明的目的在于提供一種命名實(shí)體識別方法及裝置，用于基于社交網(wǎng)絡(luò)信息進(jìn)行命名實(shí)體的識別，以適用于社交網(wǎng)絡(luò)。技術(shù)方案如下：
[0005] 本發(fā)明提供一種命名實(shí)體識別方法，所述方法包括：
[0006] 基于初始構(gòu)建的第一序列標(biāo)注模型，對訓(xùn)練文檔和測試文檔進(jìn)行序列標(biāo)注，得到每個訓(xùn)練文檔中每個第一詞的第一實(shí)體概率分布和每個測試文檔中每個第二詞的第二實(shí) 體概率分布；
[0007] 獲取每個第一詞在各自對應(yīng)的訓(xùn)練文檔中的第一上下文相似度以及每個第一詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第一對象相似度；
[0008] 基于每個第一詞的所述第一實(shí)體概率分布、每個第一詞的所述第一上下文相似度和每個第一詞的所述第一對象相似度，得到相對應(yīng)第一詞的第三實(shí)體概率分布；
[0009] 獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似度以及每個第二詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度；
[0010] 基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所述第二上下文相似度和每個第二詞的所述第二對象相似度，得到相對應(yīng)第二詞的第四實(shí)體概率分布；
[0011] 基于每個第一詞的第三實(shí)體概率分布，對所述第一序列標(biāo)注模型進(jìn)行重新訓(xùn)練，得到第二序列標(biāo)注模型；
[0012] 將每個測試文檔中每個第二詞的第四實(shí)體概率分布作為相對應(yīng)測試文檔的觀測變量，并基于所述第二序列標(biāo)注模型和所述測試文檔的觀測變量，對所述測試文檔進(jìn)行序列標(biāo)注，得到所述測試文檔中每個第二詞的命名實(shí)體。
[0013] 優(yōu)選地，所述獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似度以及每個第二詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度，包括：
[0014] 獲取詞袋U和詞袋V中共同具有的第二詞的數(shù)量以及所述詞袋U和詞袋V中第二詞的總量，其中詞袋U為一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合，詞袋V為另一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合；
[0015] 將所述第二詞的數(shù)量與所述第二詞的總量的比值作為所述第二上下文相似度；
[0016] 基于所述每個訓(xùn)練文檔的第二上下文相似度，得到訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度。
[0017] 優(yōu)選地，所述基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所述第二上下文相似度和每個第二詞的所述第二對象相似度，得到相對應(yīng)第二詞的第四實(shí)體概率分布，包括：
[0018] 基于第二詞的第二實(shí)體概率分布和第二詞的所述第二上下文相似度，獲取第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，其中命名實(shí)體類標(biāo)簽c位于命名實(shí)體識別類標(biāo)簽集合C中，且用于指示一種命名實(shí)體類型；
[0019] 基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，得到所述第二詞的各個命名實(shí)體類型的概率之和；
[0020] 基于所述第二詞的各個命名實(shí)類型的概率之和，得到所述第二詞在所有測試文檔中的命名實(shí)體概率分布；
[0021] 基于所述命名實(shí)體概率分布和第二詞的所述第二對象相似度，得到命名實(shí)體類標(biāo) 簽c的概率之和；
[0022] 基于所述命名實(shí)體類標(biāo)簽c的概率之和，得到第二詞的命名實(shí)體類型屬于命名實(shí) 體類標(biāo)簽c的概率分布；
[0023] 在得到第二詞的命名實(shí)體類型屬于命名實(shí)體識別類標(biāo)簽集合C中不同命名實(shí)體類標(biāo)簽的概率分布的情況下，選取取值最大的概率分布為所述第四實(shí)體概率分布。
[0024] 優(yōu)選地，基于第二詞的第二實(shí)體概率分布和第二詞的所述第二上下文相似度，獲取第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，包括：
[0025]基于公式 [0026]
[0027] 得到所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，其中w為第二詞、s 為一條測試文檔，u為測試文檔s所屬目標(biāo)對象，u'為非目標(biāo)對象、T為第二詞的實(shí)體類別分布集合，P(c |t)為第二實(shí)體概率分布，γ是一個0-1函數(shù)，用于判斷第二詞w是否出現(xiàn)在目標(biāo) 對象u所關(guān)注的u'中，ω是第二上下文相似度，Θ是一平滑因子，Z表示命名實(shí)體識類標(biāo)簽集合C中每一個命名實(shí)體類標(biāo)簽c在第二詞w、目標(biāo)對象u、非目標(biāo)對象u'、測試文檔s以及每一個第二詞w對實(shí)體類別分布集合T的情況下的概率之和；
[0028] 所述基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，得到所述第二詞的各個命名實(shí)體類型的概率之和，包括：
[0029] 基于公式
[0030] Z(w,u,u7 ,S,T)= Z〇ecp(c I w,u,u7 ,S,T)= Σ Cec Σ Ses^(s ,u7 ) · p(c|w,u,u7 ,s,t)
[0031] 得到所述第二詞的各個命名實(shí)體類型的概率之和，其中S為測試文檔集合，β是一個0-1函數(shù)，用于判斷一條測試文檔是否屬于非目標(biāo)對象u'；
[0032] 所述基于所述第二詞的各個命名實(shí)類型的概率之和，得到所述第二詞在所有測試文檔中的命名實(shí)體概率分布，包括：
[0033]基于公式
[0034] p(c|w,u,u7 ,S,T)= ) · p(c|w,u,u7 ,s,T)/Z(w,u,u/ ,S,T)
[0035] 得到所述第二詞在所有測試文檔中的命名實(shí)體概率分布。
[0036] 優(yōu)選地，所述基于所述命名實(shí)體概率分布和第二詞的所述第二對象相似度，得到命名實(shí)體類標(biāo)簽c的概率之和，包括：
[0037]基于公式
[0038]
[0039] 得到所述命名實(shí)體類標(biāo)簽c的概率之和，其中U是非目標(biāo)對象u'的集合，α是一個Ο-? 函數(shù)，判定目標(biāo)對象 U 和非目標(biāo)對象 U ' 之間是否是關(guān)注關(guān)系， 0 為第二對象相似度， Θ 是一平滑因子；
[0040]
[0041] 所述基于所述命名實(shí)體類標(biāo)簽c的概率之和，得到第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率分布，包括：
[0042] 基于公式
[0043] p(c|w)=p(c|w,U,U,S,T)= Σ u7 eu Σ Ses Σ teTandt=wP(c IwjUjU7jSjT) ?p(c|w,u, U7 ，s，T)
[0044] 得到所述二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率分布；
[0045] 所述在得到第二詞的命名實(shí)體類型屬于命名實(shí)體識別類標(biāo)簽集合C中不同命名實(shí) 體類標(biāo)簽的概率分布的情況下，選取取值最大的概率分布為所述第四實(shí)體概率分布，包括：
[0046]
;得到所述第四實(shí) 體概率分布。
[0047] 本發(fā)明還提供一種命名實(shí)體識別裝置，所述裝置包括：
[0048] 第一獲取單元，用于基于初始構(gòu)建的第一序列標(biāo)注模型，對訓(xùn)練文檔和測試文檔進(jìn)行序列標(biāo)注，得到每個訓(xùn)練文檔中每個第一詞的第一實(shí)體概率分布和每個測試文檔中每個第二詞的第二實(shí)體概率分布；
[0049] 第二獲取單元，用于獲取每個第一詞在各自對應(yīng)的訓(xùn)練文檔中的第一上下文相似度以及每個第一詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第一對象相似度；
[0050]第三獲取單元，用于基于每個第一詞的所述第一實(shí)體概率分布、每個第一詞的所述第一上下文相似度和每個第一詞的所述第一對象相似度，得到相對應(yīng)第一詞的第三實(shí)體概率分布；
[0051 ]第四獲取單元，用于獲取每個第二詞在各自對應(yīng)的訓(xùn)練文檔中的第二上下文相似度以及每個第二詞各自對應(yīng)的訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度；
[0052] 第五獲取單元，用于基于每個第二詞的所述第二實(shí)體概率分布、每個第二詞的所述第二上下文相似度和每個第二詞的所述第二對象相似度，得到相對應(yīng)第二詞的第四實(shí)體概率分布；
[0053] 訓(xùn)練單元，用于基于每個第一詞的第三實(shí)體概率分布，對所述第一序列標(biāo)注模型進(jìn)行重新訓(xùn)練，得到第二序列標(biāo)注模型；
[0054] 測試單元，用于將每個測試文檔中每個第二詞的第四實(shí)體概率分布作為相對應(yīng)測試文檔的觀測變量，并基于所述第二序列標(biāo)注模型和所述測試文檔的觀測變量，對所述測試文檔進(jìn)行序列標(biāo)注，得到所述測試文檔中每個第二詞的命名實(shí)體。
[0055] 優(yōu)選地，所述第四獲取單元包括：
[0056] 第一獲取子單元，用于獲取詞袋u和詞袋V中共同具有的第二詞的數(shù)量以及所述詞袋u和詞袋V中第二詞的總量，其中詞袋u為一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合，詞袋V為另一個第二詞對應(yīng)的訓(xùn)練文檔的詞集合；
[0057] 第二獲取子單元，用于將所述第二詞的數(shù)量與所述第二詞的總量的比值作為所述第二上下文相似度；
[0058] 第三獲取子單元，用于基于所述每個訓(xùn)練文檔的第二上下文相似度，得到訓(xùn)練文檔所屬目標(biāo)對象之間的第二對象相似度。
[0059]優(yōu)選地，所述第五獲取單元包括：
[0060] 第一概率獲取子單元，用于基于第二詞的第二實(shí)體概率分布和第二詞的所述第二上下文相似度，獲取第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo)簽c的概率，其中命名實(shí)體類標(biāo)簽c位于命名實(shí)體識別類標(biāo)簽集合C中，且用于指示一種命名實(shí)體類型；
[0061] 第一概率和獲取子單元，用于基于所述第二詞的命名實(shí)體類型屬于命名實(shí)體類標(biāo) 簽c的概率，得到所述第二

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張晨;謝隆飛;尹泓欽;王全禮;
技術(shù)所有人：中國建設(shè)銀行股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

命名實(shí)體識別方法相關(guān)技術(shù)

命名實(shí)體識別相關(guān)技術(shù)

中文命名實(shí)體識別相關(guān)技術(shù)

命名實(shí)體識別工具相關(guān)技術(shù)

中文命名實(shí)體識別工具相關(guān)技術(shù)

命名實(shí)體識別算法相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種命名實(shí)體識別方法及裝置的制造方法