一種命名實(shí)體識別方法及系統(tǒng)

文檔序號：39726678發(fā)布日期：2024-10-22 13:27閱讀：1來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)識別，具體涉及一種命名實(shí)體識別方法及系統(tǒng)。

背景技術(shù)：

1、在搜索引擎查詢中，超過70％包含命名實(shí)體；在新聞文本中，有超過30％的內(nèi)容與專有名詞相關(guān)；在問答系統(tǒng)中，通過命名實(shí)體識別定位問題的核心主題，建立知識庫中實(shí)體之間的關(guān)聯(lián)，為問答系統(tǒng)提供更有效的知識，有助于問答系統(tǒng)對用戶問題的深刻理解和準(zhǔn)確回答。

2、命名實(shí)體識別方法可分為：

3、(1)基于規(guī)則和詞典：缺乏特定領(lǐng)域知識，難以準(zhǔn)確獲取特定領(lǐng)域的實(shí)體；

4、(2)基于機(jī)器學(xué)習(xí)：對數(shù)據(jù)的依賴性較高，缺乏良好的可擴(kuò)展性；

5、在實(shí)際運(yùn)用中，用戶問題可能存在用詞不準(zhǔn)確、語序顛倒等問題，在面對多樣性的用戶問題時，通用方法難以準(zhǔn)確抽取特定領(lǐng)域的實(shí)體。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種命名實(shí)體識別方法及系統(tǒng)，所要解決的技術(shù)問題是提高特定領(lǐng)域術(shù)語實(shí)體抽取的準(zhǔn)確性。

2、本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn)：

3、第一方面提供一種命名實(shí)體識別方法，包括以下步驟：

4、s100、接收到特定領(lǐng)域數(shù)據(jù)后，對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理；

5、s200、將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到實(shí)體示例集；

6、s300、利用價值函數(shù)，為上述實(shí)體示例集中的各實(shí)體示例分別打分，確定最優(yōu)實(shí)體示例子集；

7、s400、將用戶問題輸入所述訓(xùn)練后的預(yù)訓(xùn)練模型，通過訓(xùn)練后的預(yù)訓(xùn)練模型從用戶問題中抽取實(shí)體，得到實(shí)體結(jié)果；

8、將所述最優(yōu)實(shí)體示例子集、用戶問題以及實(shí)體結(jié)果輸入通用大模型，由所述通用大模型判斷是否推翻實(shí)體結(jié)果；

9、s410、若不推翻所述實(shí)體結(jié)果，則該實(shí)體結(jié)果作為識別結(jié)果；

10、s420、若推翻所述實(shí)體結(jié)果，則生成新的實(shí)體，將新的實(shí)體作為識別結(jié)果。

11、通過預(yù)處理，減少了模型輸入中的噪聲和不確定性，提高了后續(xù)步驟中模型處理數(shù)據(jù)的準(zhǔn)確性和效率；預(yù)訓(xùn)練模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練，學(xué)習(xí)到豐富的語言知識和上下文信息；通過價值函數(shù)的評估，篩選出最具代表性和準(zhǔn)確性的實(shí)體示例，進(jìn)一步提高了實(shí)體抽取的準(zhǔn)確性；通用大模型的校驗(yàn)?zāi)軌虿蹲降礁鼜?fù)雜的上下文信息和語義關(guān)系，從而糾正或優(yōu)化初步抽取的實(shí)體結(jié)果，如果通用大模型不推翻初步抽取的實(shí)體結(jié)果，則該實(shí)體結(jié)果被接受為最終的識別結(jié)果；如果推翻，則生成新的實(shí)體作為識別結(jié)果。

12、進(jìn)一步的，對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理，具體步驟包括：

13、s110、對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗；

14、s120、將上述清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集。

15、通過數(shù)據(jù)清洗，糾正特定領(lǐng)域數(shù)據(jù)中存在的異常值和重復(fù)值，以提高數(shù)據(jù)質(zhì)量；清洗后的特定領(lǐng)域數(shù)據(jù)中不包含無關(guān)信息或錯誤數(shù)據(jù)，減少了模型在訓(xùn)練過程中受到的干擾，高質(zhì)量的數(shù)據(jù)輸入提高了模型的訓(xùn)練效果和預(yù)測準(zhǔn)確性；將清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集，訓(xùn)練樣本集用于預(yù)訓(xùn)練模型的訓(xùn)練，測試樣本集用于評估預(yù)訓(xùn)練模型的性能。

16、進(jìn)一步的，在執(zhí)行s200之前，還需要利用上述訓(xùn)練樣本集訓(xùn)練預(yù)訓(xùn)練模型，得到訓(xùn)練后的預(yù)訓(xùn)練模型。

17、在s200之前，需要先利用清洗并劃分好的訓(xùn)練樣本集來訓(xùn)練預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型通常是在大量通用文本數(shù)據(jù)上預(yù)先訓(xùn)練好的模型，預(yù)訓(xùn)練模型已經(jīng)學(xué)習(xí)到了豐富的語言知識和上下文信息；然而，由于不同領(lǐng)域的數(shù)據(jù)具有不同的特點(diǎn)和模式，直接使用預(yù)訓(xùn)練模型可能無法達(dá)到最佳效果，因此，需要利用特定領(lǐng)域的訓(xùn)練樣本集對預(yù)訓(xùn)練模型進(jìn)行微調(diào)，使模型更適應(yīng)特定領(lǐng)域的數(shù)據(jù)特點(diǎn)和模式，從而提高實(shí)體抽取的準(zhǔn)確性。

18、進(jìn)一步的，將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到實(shí)體示例集，具體步驟包括：

19、s210、將上述訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體；

20、s220、將上述測試樣本集中的各測試樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到與該測試樣本對應(yīng)的測試實(shí)體。

21、利用訓(xùn)練好的預(yù)訓(xùn)練模型，對訓(xùn)練樣本集中的每一個訓(xùn)練樣本進(jìn)行預(yù)測，預(yù)訓(xùn)練模型會識別每個訓(xùn)練樣本相應(yīng)的實(shí)體，得到訓(xùn)練實(shí)體；對測試樣本集中的每一個測試樣本進(jìn)行預(yù)測，并得到每一個測試樣本中的測試實(shí)體。

22、進(jìn)一步的，利用價值函數(shù)，為上述實(shí)體示例集中的各實(shí)體示例分別打分，確定最優(yōu)實(shí)體示例子集，具體步驟包括：

23、s310、通過上述訓(xùn)練樣本集中各訓(xùn)練樣本以及與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體，分別構(gòu)建訓(xùn)練數(shù)據(jù)上下文，得到訓(xùn)練數(shù)據(jù)上下文集(即實(shí)體示例集)；

24、通過上述測試樣本集中的各測試樣本以及與該測試樣本對應(yīng)的測試實(shí)體，分別構(gòu)建測試數(shù)據(jù)上下文，得到測試數(shù)據(jù)上下文集；

25、s320、通過價值函數(shù)，分別計算上述訓(xùn)練數(shù)據(jù)上下文集中每個訓(xùn)練數(shù)據(jù)上下文對單個測試數(shù)據(jù)上下文的綜合價值；

26、s330、通過上述綜合價值對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序，得到最優(yōu)的訓(xùn)練數(shù)據(jù)上下文，將上述最優(yōu)的訓(xùn)練數(shù)據(jù)上下文作為該測試數(shù)據(jù)上下文的最優(yōu)實(shí)體示例子集。

27、提取每個訓(xùn)練樣本及其相關(guān)實(shí)體的信息，形成包含多個訓(xùn)練數(shù)據(jù)上下文的集合，該訓(xùn)練數(shù)據(jù)上下文包括實(shí)體數(shù)據(jù)、相關(guān)的屬性以及上下文信息；提取測試樣本集中的單個測試樣本及其相關(guān)實(shí)體數(shù)據(jù)的信息，形成測試數(shù)據(jù)上下文,測試數(shù)據(jù)上下文用于在后續(xù)步驟中評估訓(xùn)練數(shù)據(jù)上下文的質(zhì)量或價值；使用價值函數(shù)計算訓(xùn)練數(shù)據(jù)上下文對測試數(shù)據(jù)上下文的綜合價值，根據(jù)綜合價值，對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序，價值越高的訓(xùn)練數(shù)據(jù)上下文排在越前面；選擇綜合價值最高的k個訓(xùn)練數(shù)據(jù)上下文作為最優(yōu)的訓(xùn)練數(shù)據(jù)上下文集(即最優(yōu)實(shí)體示例子集)。

28、進(jìn)一步的，上述價值函數(shù)為：

29、

30、其中，value表示價值函數(shù)；σ表示測試樣本集中的單個測試樣本和訓(xùn)練樣本集之間的相似度；t表示預(yù)訓(xùn)練模型生成實(shí)體所需的時間步，實(shí)體由多個表征組成，每個時間步生成一個表征；n表示預(yù)訓(xùn)練模型生成實(shí)體的長度；ωt表示第t個時間步生成表征的得分權(quán)重；p(yt|y＜t,x,θ)表示條件概率；yt表示第t個時間步生成的表征；y＜t表示t時間步之前生成的tokens序列；x表示測試樣本集中的單個測試樣本；θ表示訓(xùn)練后的預(yù)訓(xùn)練模型參數(shù)。

31、第二方面提供一種命名實(shí)體識別系統(tǒng)，該識別系統(tǒng)采用上述的識別方法；

32、該識別系統(tǒng)包括：

33、用戶終端，上述用戶終端用于發(fā)送特定領(lǐng)域數(shù)據(jù)；

34、數(shù)據(jù)處理平臺，上述數(shù)據(jù)處理平臺與用戶終端通信連接；上述數(shù)據(jù)處理平臺用于執(zhí)行以下操作：

35、s100、接收到特定領(lǐng)域數(shù)據(jù)后，對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理；

36、s200、將上述預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到實(shí)體示例集；

37、s300、利用價值函數(shù)，為上述實(shí)體示例集中的各實(shí)體示例分別打分，確定最優(yōu)實(shí)體示例子集；

38、s400、將用戶問題輸入所述訓(xùn)練后的預(yù)訓(xùn)練模型，通過訓(xùn)練后的預(yù)訓(xùn)練模型從用戶問題中抽取實(shí)體，得到實(shí)體結(jié)果；

39、將所述最優(yōu)實(shí)體示例子集、用戶問題以及實(shí)體結(jié)果輸入通用大模型，由所述通用大模型判斷是否推翻實(shí)體結(jié)果；

40、s410、若不推翻所述實(shí)體結(jié)果，則該實(shí)體結(jié)果作為識別結(jié)果；

41、s420、若推翻所述實(shí)體結(jié)果，則生成新的實(shí)體，將新的實(shí)體作為識別結(jié)果。

42、進(jìn)一步的，上述數(shù)據(jù)處理平臺用于對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理，具體步驟包括：

43、s110、對上述特定領(lǐng)域數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗；

44、s120、將上述清洗后的特定領(lǐng)域數(shù)據(jù)劃分為訓(xùn)練樣本集和測試樣本集。

45、進(jìn)一步的，上述數(shù)據(jù)處理平臺用于將預(yù)處理后的特定領(lǐng)域數(shù)據(jù)輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到實(shí)體示例集，具體步驟包括：

46、s210、將上述訓(xùn)練樣本集中的各訓(xùn)練樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體；

47、s220、將上述測試樣本集中的各測試樣本分別輸入訓(xùn)練后的預(yù)訓(xùn)練模型，得到與該測試樣本對應(yīng)的測試實(shí)體。

48、進(jìn)一步的，利用價值函數(shù)，為上述實(shí)體示例集中的各實(shí)體示例分別打分，確定最優(yōu)實(shí)體示例子集，具體步驟包括：

49、s310、通過上述訓(xùn)練樣本集中各訓(xùn)練樣本以及與該訓(xùn)練樣本對應(yīng)的訓(xùn)練實(shí)體，分別構(gòu)建訓(xùn)練數(shù)據(jù)上下文，得到訓(xùn)練數(shù)據(jù)上下文集(即實(shí)體示例集)；

50、通過上述測試樣本集中的各測試樣本以及與該測試樣本對應(yīng)的測試實(shí)體，分別構(gòu)建測試數(shù)據(jù)上下文，得到測試數(shù)據(jù)上下文集；

51、s320、通過價值函數(shù)，分別計算上述訓(xùn)練數(shù)據(jù)上下文中每個訓(xùn)練數(shù)據(jù)上下文對單個測試數(shù)據(jù)上下文的綜合價值；

52、s330、通過上述綜合價值對訓(xùn)練數(shù)據(jù)上下文進(jìn)行排序，得到最優(yōu)的訓(xùn)練數(shù)據(jù)上下文，將上述最優(yōu)的訓(xùn)練數(shù)據(jù)上下文作為該測試數(shù)據(jù)上下文的最優(yōu)實(shí)體示例子集。

53、本發(fā)明與現(xiàn)有技術(shù)相比，具有如下的優(yōu)點(diǎn)和有益效果：

54、通過預(yù)處理，減少了模型輸入中的噪聲和不確定性，提高了后續(xù)步驟中模型處理數(shù)據(jù)的準(zhǔn)確性和效率；預(yù)訓(xùn)練模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練，學(xué)習(xí)到豐富的語言知識和上下文信息；通過價值函數(shù)的評估，篩選出最具代表性和準(zhǔn)確性的實(shí)體示例，進(jìn)一步提高了實(shí)體抽取的準(zhǔn)確性；通用大模型的校驗(yàn)?zāi)軌虿蹲降礁鼜?fù)雜的上下文信息和語義關(guān)系，從而糾正或優(yōu)化初步抽取的實(shí)體結(jié)果，如果通用大模型不推翻初步抽取的實(shí)體結(jié)果，則該實(shí)體結(jié)果被接受為最終的識別結(jié)果；如果推翻，則生成新的實(shí)體作為識別結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋騏,梁軍麗,賈晶亭,王志峰
技術(shù)所有人：中國科學(xué)技術(shù)大學(xué)國際金融研究院
我是此專利的發(fā)明人

上一篇：用于大尺寸光學(xué)零件拋光的加工方法及拋光模具與流程
上一篇：一種物料投放流動處理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種命名實(shí)體識別方法及系統(tǒng)