本發(fā)明涉及數(shù)據(jù)識別,具體涉及一種命名實(shí)體識別方法及系統(tǒng)。
背景技術(shù):
1、在搜索引擎查詢中,超過70%包含命名實(shí)體;在新聞文本中,有超過30%的內(nèi)容與專有名詞相關(guān);在問答系統(tǒng)中,通過命名實(shí)體識別定位問題的核心主題,建立知識庫中實(shí)體之間的關(guān)聯(lián),為問答系統(tǒng)提供更有效的知識,有助于問答系統(tǒng)對用戶問題的深刻理解和準(zhǔn)確回答。
2、命名實(shí)體識別方法可分為:
3、(1)基于規(guī)則和詞典:缺乏特定領(lǐng)域知識,難以準(zhǔn)確獲取特定領(lǐng)域的實(shí)體;
4、(2)基于機(jī)器學(xué)習(xí):對數(shù)據(jù)的依賴性較高,缺乏良好的可擴(kuò)展性;
5、在實(shí)際運(yùn)用中,用戶問題可能存在用詞不準(zhǔn)確、語序顛倒等問題,在面對多樣性的用戶問題時,通用方法難以準(zhǔn)確抽取特定領(lǐng)域的實(shí)體。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種命名實(shí)體識別方法及系統(tǒng),所要解決的技術(shù)問題是提高特定領(lǐng)域術(shù)語實(shí)體抽取的準(zhǔn)確性。
2、本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn):
3、第一方面提供一種命名實(shí)體識別方法,包括以下步驟:
4、s100、接收到特定領(lǐng)域數(shù)據(jù)后,對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理;
5、s200、將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到實(shí)體示例集;
6、s300、利用價值函數(shù),為上述實(shí)體示例集中的各實(shí)體示例分別打分,確定最優(yōu)實(shí)體示例子集;
7、s400、將用戶問題輸入所述訓(xùn)練后的預(yù)訓(xùn)練模型,通過訓(xùn)練后的預(yù)訓(xùn)練模型從用戶問題中抽取實(shí)體,得到實(shí)體結(jié)果;
8、將所述最優(yōu)實(shí)體示例子集、用戶問題以及實(shí)體結(jié)果輸入通用大模型,由所述通用大模型判斷是否推翻實(shí)體結(jié)果;
9、s410、若不推翻所述實(shí)體結(jié)果,則該實(shí)體結(jié)果作為識別結(jié)果;
10、s420、若推翻所述實(shí)體結(jié)果,則生成新的實(shí)體,將新的實(shí)體作為識別結(jié)果。
11、通過預(yù)處理,減少了模型輸入中的噪聲和不確定性,提高了后續(xù)步驟中模型處理數(shù)據(jù)的準(zhǔn)確性和效率;預(yù)訓(xùn)練模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)到豐富的語言知識和上下文信息;通過價值函數(shù)的評估,篩選出最具代表性和準(zhǔn)確性的實(shí)體示例,進(jìn)一步提高了實(shí)體抽取的準(zhǔn)確性;通用大模型的校驗(yàn)?zāi)軌虿蹲降礁鼜?fù)雜的上下文信息和語義關(guān)系,從而糾正或優(yōu)化初步抽取的實(shí)體結(jié)果,如果通用大模型不推翻初步抽取的實(shí)體結(jié)果,則該實(shí)體結(jié)果被接受為最終的識別結(jié)果;如果推翻,則生成新的實(shí)體作為識別結(jié)果。
12、進(jìn)一步的,對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理,具體步驟包括:
13、s110、對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
14、s120、將上述清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集。
15、通過數(shù)據(jù)清洗,糾正特定領(lǐng)域數(shù)據(jù)中存在的異常值和重復(fù)值,以提高數(shù)據(jù)質(zhì)量;清洗后的特定領(lǐng)域數(shù)據(jù)中不包含無關(guān)信息或錯誤數(shù)據(jù),減少了模型在訓(xùn)練過程中受到的干擾,高質(zhì)量的數(shù)據(jù)輸入提高了模型的訓(xùn)練效果和預(yù)測準(zhǔn)確性;將清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集,訓(xùn)練樣本集用于預(yù)訓(xùn)練模型的訓(xùn)練,測試樣本集用于評估預(yù)訓(xùn)練模型的性能。
16、進(jìn)一步的,在執(zhí)行s200之前,還需要利用上述訓(xùn)練樣本集訓(xùn)練預(yù)訓(xùn)練模型,得到訓(xùn)練后的預(yù)訓(xùn)練模型。
17、在s200之前,需要先利用清洗并劃分好的訓(xùn)練樣本集來訓(xùn)練預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型通常是在大量通用文本數(shù)據(jù)上預(yù)先訓(xùn)練好的模型,預(yù)訓(xùn)練模型已經(jīng)學(xué)習(xí)到了豐富的語言知識和上下文信息;然而,由于不同領(lǐng)域的數(shù)據(jù)具有不同的特點(diǎn)和模式,直接使用預(yù)訓(xùn)練模型可能無法達(dá)到最佳效果,因此,需要利用特定領(lǐng)域的訓(xùn)練樣本集對預(yù)訓(xùn)練模型進(jìn)行微調(diào),使模型更適應(yīng)特定領(lǐng)域的數(shù)據(jù)特點(diǎn)和模式,從而提高實(shí)體抽取的準(zhǔn)確性。
18、進(jìn)一步的,將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到實(shí)體示例集,具體步驟包括:
19、s210、將上述訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體;
20、s220、將上述測試樣本集中的各測試樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到與該測試樣本對應(yīng)的測試實(shí)體。
21、利用訓(xùn)練好的預(yù)訓(xùn)練模型,對訓(xùn)練樣本集中的每一個訓(xùn)練樣本進(jìn)行預(yù)測,預(yù)訓(xùn)練模型會識別每個訓(xùn)練樣本相應(yīng)的實(shí)體,得到訓(xùn)練實(shí)體;對測試樣本集中的每一個測試樣本進(jìn)行預(yù)測,并得到每一個測試樣本中的測試實(shí)體。
22、進(jìn)一步的,利用價值函數(shù),為上述實(shí)體示例集中的各實(shí)體示例分別打分,確定最優(yōu)實(shí)體示例子集,具體步驟包括:
23、s310、通過上述訓(xùn)練樣本集中各訓(xùn)練樣本以及與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體,分別構(gòu)建訓(xùn)練數(shù)據(jù)上下文,得到訓(xùn)練數(shù)據(jù)上下文集(即實(shí)體示例集);
24、通過上述測試樣本集中的各測試樣本以及與該測試樣本對應(yīng)的測試實(shí)體,分別構(gòu)建測試數(shù)據(jù)上下文,得到測試數(shù)據(jù)上下文集;
25、s320、通過價值函數(shù),分別計算上述訓(xùn)練數(shù)據(jù)上下文集中每個訓(xùn)練數(shù)據(jù)上下文對單個測試數(shù)據(jù)上下文的綜合價值;
26、s330、通過上述綜合價值對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序,得到最優(yōu)的訓(xùn)練數(shù)據(jù)上下文,將上述最優(yōu)的訓(xùn)練數(shù)據(jù)上下文作為該測試數(shù)據(jù)上下文的最優(yōu)實(shí)體示例子集。
27、提取每個訓(xùn)練樣本及其相關(guān)實(shí)體的信息,形成包含多個訓(xùn)練數(shù)據(jù)上下文的集合,該訓(xùn)練數(shù)據(jù)上下文包括實(shí)體數(shù)據(jù)、相關(guān)的屬性以及上下文信息;提取測試樣本集中的單個測試樣本及其相關(guān)實(shí)體數(shù)據(jù)的信息,形成測試數(shù)據(jù)上下文,測試數(shù)據(jù)上下文用于在后續(xù)步驟中評估訓(xùn)練數(shù)據(jù)上下文的質(zhì)量或價值;使用價值函數(shù)計算訓(xùn)練數(shù)據(jù)上下文對測試數(shù)據(jù)上下文的綜合價值,根據(jù)綜合價值,對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序,價值越高的訓(xùn)練數(shù)據(jù)上下文排在越前面;選擇綜合價值最高的k個訓(xùn)練數(shù)據(jù)上下文作為最優(yōu)的訓(xùn)練數(shù)據(jù)上下文集(即最優(yōu)實(shí)體示例子集)。
28、進(jìn)一步的,上述價值函數(shù)為:
29、
30、其中,value表示價值函數(shù);σ表示測試樣本集中的單個測試樣本和訓(xùn)練樣本集之間的相似度;t表示預(yù)訓(xùn)練模型生成實(shí)體所需的時間步,實(shí)體由多個表征組成,每個時間步生成一個表征;n表示預(yù)訓(xùn)練模型生成實(shí)體的長度;ωt表示第t個時間步生成表征的得分權(quán)重;p(yt|y<t,x,θ)表示條件概率;yt表示第t個時間步生成的表征;y<t表示t時間步之前生成的tokens序列;x表示測試樣本集中的單個測試樣本;θ表示訓(xùn)練后的預(yù)訓(xùn)練模型參數(shù)。
31、第二方面提供一種命名實(shí)體識別系統(tǒng),該識別系統(tǒng)采用上述的識別方法;
32、該識別系統(tǒng)包括:
33、用戶終端,上述用戶終端用于發(fā)送特定領(lǐng)域數(shù)據(jù);
34、數(shù)據(jù)處理平臺,上述數(shù)據(jù)處理平臺與用戶終端通信連接;上述數(shù)據(jù)處理平臺用于執(zhí)行以下操作:
35、s100、接收到特定領(lǐng)域數(shù)據(jù)后,對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理;
36、s200、將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到實(shí)體示例集;
37、s300、利用價值函數(shù),為上述實(shí)體示例集中的各實(shí)體示例分別打分,確定最優(yōu)實(shí)體示例子集;
38、s400、將用戶問題輸入所述訓(xùn)練后的預(yù)訓(xùn)練模型,通過訓(xùn)練后的預(yù)訓(xùn)練模型從用戶問題中抽取實(shí)體,得到實(shí)體結(jié)果;
39、將所述最優(yōu)實(shí)體示例子集、用戶問題以及實(shí)體結(jié)果輸入通用大模型,由所述通用大模型判斷是否推翻實(shí)體結(jié)果;
40、s410、若不推翻所述實(shí)體結(jié)果,則該實(shí)體結(jié)果作為識別結(jié)果;
41、s420、若推翻所述實(shí)體結(jié)果,則生成新的實(shí)體,將新的實(shí)體作為識別結(jié)果。
42、進(jìn)一步的,上述數(shù)據(jù)處理平臺用于對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理,具體步驟包括:
43、s110、對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
44、s120、將上述清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集。
45、進(jìn)一步的,上述數(shù)據(jù)處理平臺用于將預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到實(shí)體示例集,具體步驟包括:
46、s210、將上述訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體;
47、s220、將上述測試樣本集中的各測試樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型,得到與該測試樣本對應(yīng)的測試實(shí)體。
48、進(jìn)一步的,利用價值函數(shù),為上述實(shí)體示例集中的各實(shí)體示例分別打分,確定最優(yōu)實(shí)體示例子集,具體步驟包括:
49、s310、通過上述訓(xùn)練樣本集中各訓(xùn)練樣本以及與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體,分別構(gòu)建訓(xùn)練數(shù)據(jù)上下文,得到訓(xùn)練數(shù)據(jù)上下文集(即實(shí)體示例集);
50、通過上述測試樣本集中的各測試樣本以及與該測試樣本對應(yīng)的測試實(shí)體,分別構(gòu)建測試數(shù)據(jù)上下文,得到測試數(shù)據(jù)上下文集;
51、s320、通過價值函數(shù),分別計算上述訓(xùn)練數(shù)據(jù)上下文中每個訓(xùn)練數(shù)據(jù)上下文對單個測試數(shù)據(jù)上下文的綜合價值;
52、s330、通過上述綜合價值對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序,得到最優(yōu)的訓(xùn)練數(shù)據(jù)上下文,將上述最優(yōu)的訓(xùn)練數(shù)據(jù)上下文作為該測試數(shù)據(jù)上下文的最優(yōu)實(shí)體示例子集。
53、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
54、通過預(yù)處理,減少了模型輸入中的噪聲和不確定性,提高了后續(xù)步驟中模型處理數(shù)據(jù)的準(zhǔn)確性和效率;預(yù)訓(xùn)練模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)到豐富的語言知識和上下文信息;通過價值函數(shù)的評估,篩選出最具代表性和準(zhǔn)確性的實(shí)體示例,進(jìn)一步提高了實(shí)體抽取的準(zhǔn)確性;通用大模型的校驗(yàn)?zāi)軌虿蹲降礁鼜?fù)雜的上下文信息和語義關(guān)系,從而糾正或優(yōu)化初步抽取的實(shí)體結(jié)果,如果通用大模型不推翻初步抽取的實(shí)體結(jié)果,則該實(shí)體結(jié)果被接受為最終的識別結(jié)果;如果推翻,則生成新的實(shí)體作為識別結(jié)果。