本發(fā)明涉及人工智能,具體涉及一種基于大模型新命題糾錯(cuò)方法及系統(tǒng)。
背景技術(shù):
1、在現(xiàn)有技術(shù)中,基于自然語(yǔ)言處理(nlp)和機(jī)器學(xué)習(xí)算法的自動(dòng)糾錯(cuò)技術(shù)已經(jīng)得到了廣泛的應(yīng)用,這些技術(shù)通常通過(guò)訓(xùn)練模型來(lái)識(shí)別和修正文本中的語(yǔ)法、拼寫(xiě)和邏輯錯(cuò)誤,尤其在語(yǔ)法糾錯(cuò)和拼寫(xiě)檢查方面取得了顯著進(jìn)展?,F(xiàn)有的糾錯(cuò)系統(tǒng)往往依賴于預(yù)先定義的規(guī)則或詞典,結(jié)合統(tǒng)計(jì)模型或深度學(xué)習(xí)模型來(lái)檢測(cè)和修正錯(cuò)誤,這些技術(shù)在處理標(biāo)準(zhǔn)化文本時(shí)表現(xiàn)出較高的準(zhǔn)確性和效率,隨著自然語(yǔ)言處理技術(shù)的發(fā)展,特別是大語(yǔ)言模型(llm)的應(yīng)用,出現(xiàn)了更加復(fù)雜和創(chuàng)新性的文本生成任務(wù)。大語(yǔ)言模型能夠生成包含新命題或非標(biāo)準(zhǔn)表達(dá)的文本,這為現(xiàn)有的糾錯(cuò)方法帶來(lái)了新的挑戰(zhàn)。
2、現(xiàn)有的糾錯(cuò)技術(shù)通常依賴于預(yù)定義的規(guī)則或標(biāo)準(zhǔn)的語(yǔ)言結(jié)構(gòu),但在面對(duì)大模型生成的創(chuàng)新性表述時(shí),這些技術(shù)往往難以適應(yīng),無(wú)法有效識(shí)別和修正其中的錯(cuò)誤。尤其是在處理新命題時(shí),由于這些表述可能不符合已有的語(yǔ)言規(guī)范或包含創(chuàng)新性的邏輯推導(dǎo),現(xiàn)有的糾錯(cuò)技術(shù)往往會(huì)出現(xiàn)較高的誤判率。此外,新命題的獨(dú)特性和多樣性使得現(xiàn)有技術(shù)難以覆蓋所有可能的錯(cuò)誤類(lèi)型,這進(jìn)一步增加了糾錯(cuò)的難度。因此,如何開(kāi)發(fā)更加智能和靈活的糾錯(cuò)方法,以提高在處理新命題時(shí)的準(zhǔn)確性和效率,成為當(dāng)前研究中的一個(gè)關(guān)鍵問(wèn)題,目前,雖然已經(jīng)有一些研究嘗試通過(guò)增強(qiáng)模型的適應(yīng)性或結(jié)合多種技術(shù)手段來(lái)提升糾錯(cuò)效果,但仍然存在識(shí)別準(zhǔn)確性不足、對(duì)新類(lèi)型錯(cuò)誤處理能力有限等問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大模型新命題糾錯(cuò)方法及系統(tǒng),解決在如何開(kāi)發(fā)更加智能和靈活的糾錯(cuò)方法,以提高在處理新命題時(shí)的準(zhǔn)確性和效率問(wèn)題上,現(xiàn)有技術(shù)雖然已經(jīng)有一些研究嘗試通過(guò)增強(qiáng)模型的適應(yīng)性或結(jié)合多種技術(shù)手段來(lái)提升糾錯(cuò)效果,但仍然存在識(shí)別準(zhǔn)確性不足、對(duì)新類(lèi)型錯(cuò)誤處理能力有限等問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大模型新命題糾錯(cuò)方法,所述方法包括:
3、s1:獲取生成的新命題及其對(duì)應(yīng)的語(yǔ)境信息;
4、s2:基于預(yù)訓(xùn)練的語(yǔ)言大模型對(duì)新命題進(jìn)行語(yǔ)義分析,識(shí)別其中的潛在錯(cuò)誤;
5、s3:利用領(lǐng)域特定知識(shí)庫(kù)驗(yàn)證所述新命題的準(zhǔn)確性;
6、s4:根據(jù)分析結(jié)果和驗(yàn)證反饋?zhàn)詣?dòng)修正新命題中的錯(cuò)誤。
7、優(yōu)選的,所述步驟s1獲取生成的新命題及其對(duì)應(yīng)的語(yǔ)境信息具體包括:
8、通過(guò)api接口接收輸出的新命題文本;
9、提取新命題文本中的關(guān)鍵詞匯;
10、基于關(guān)鍵詞匯構(gòu)建語(yǔ)境上下文環(huán)境;
11、利用自然語(yǔ)言處理技術(shù)識(shí)別新命題中的實(shí)體和關(guān)系。
12、優(yōu)選的,所述步驟s2中基于預(yù)訓(xùn)練的語(yǔ)言大模型對(duì)所述新命題進(jìn)行語(yǔ)義分析這一步驟具體包括:
13、將新命題輸入至預(yù)訓(xùn)練語(yǔ)言大模型以獲得語(yǔ)義向量表示;
14、基于語(yǔ)義向量表示計(jì)算新命題與領(lǐng)域內(nèi)標(biāo)準(zhǔn)表述之間的相似度s;
15、如果相似度s低于預(yù)設(shè)閾值t,則判定新命題可能存在語(yǔ)義錯(cuò)誤;
16、對(duì)比新命題與領(lǐng)域內(nèi)標(biāo)準(zhǔn)表述的關(guān)鍵差異點(diǎn)。
17、優(yōu)選的,所述基于語(yǔ)義向量表示計(jì)算新命題與領(lǐng)域內(nèi)標(biāo)準(zhǔn)表述之間的相似度s具體包括:
18、對(duì)新命題的語(yǔ)義向量表示進(jìn)行歸一化處理;
19、計(jì)算歸一化后的語(yǔ)義向量表示與領(lǐng)域內(nèi)標(biāo)準(zhǔn)表述向量表示之間的余弦相似度c;
20、如果余弦相似度c小于7,則認(rèn)為新命題與標(biāo)準(zhǔn)表述不匹配,即當(dāng)c<0.7時(shí),判定新命題與標(biāo)準(zhǔn)表述存在較大差異;
21、基于不匹配情況調(diào)整相似度s的計(jì)算方式;
22、其中,所述計(jì)算歸一化后的語(yǔ)義向量表示與領(lǐng)域內(nèi)標(biāo)準(zhǔn)表述向量表示之間的余弦相似度c具體步驟包括:
23、確定新命題語(yǔ)義向量,表示v1和標(biāo)準(zhǔn)表述向量,表示v2;
24、計(jì)算v1與v2的點(diǎn)積p;
25、計(jì)算v1和v2的模長(zhǎng)m1和m2;
26、根據(jù)公式余弦相似度c=p/(m1×m2)計(jì)算余弦相似度。
27、優(yōu)選的,所述步驟s2中基于預(yù)訓(xùn)練的語(yǔ)言大模型對(duì)所述新命題進(jìn)行語(yǔ)義分析,識(shí)別其中的潛在錯(cuò)誤的識(shí)別過(guò)程具體步驟包括:
28、獲取新命題的詞法結(jié)構(gòu)信息;
29、基于語(yǔ)言模型計(jì)算所述新命題的語(yǔ)法概率得分p(語(yǔ)法);
30、判斷語(yǔ)法概率得分p(語(yǔ)法)是否低于第一預(yù)設(shè)閾值θ1;
31、如果p(語(yǔ)法)<θ1,則識(shí)別新命題可能存在語(yǔ)法錯(cuò)誤;
32、其中,所述基于語(yǔ)言模型計(jì)算所述新命題的語(yǔ)法概率得分p(語(yǔ)法)的具體步驟包括:
33、對(duì)新命題進(jìn)行分詞處理得到詞匯序列;
34、基于語(yǔ)言模型計(jì)算所述詞匯序列的概率得分p(詞匯);
35、計(jì)算新命題的上下文相關(guān)性得分p(上下文);
36、根據(jù)公式p(語(yǔ)法)=p(詞匯)×p(上下文)計(jì)算語(yǔ)法概率得分p(語(yǔ)法)。
37、優(yōu)選的,所述計(jì)算新命題的上下文相關(guān)性得分p(上下文)的具體步驟包括:
38、獲取所述新命題的前后文信息;
39、基于語(yǔ)言模型計(jì)算前后文信息的相關(guān)性得分p(前)和p(后);
40、判斷所述相關(guān)性得分p(前)和p(后)是否均高于第二預(yù)設(shè)閾值θ2;
41、如果p(前)>θ2且p(后)>θ2,則p(上下文)=?(p(前)+?p(后))/2;
42、其中,所述基于語(yǔ)言模型計(jì)算前后文信息的相關(guān)性得分p(前)和p(后)的具體步驟包括:
43、提取新命題的前后文關(guān)鍵詞;
44、基于語(yǔ)言模型計(jì)算所述關(guān)鍵詞在前后文中出現(xiàn)的概率p(關(guān)鍵詞);
45、計(jì)算關(guān)鍵詞與新命題之間的語(yǔ)義相似度s(語(yǔ)義);
46、根據(jù)公式p(前)/p(后)=?p(關(guān)鍵詞)×s(語(yǔ)義)計(jì)算相關(guān)性得分p(前)和p(后)。
47、優(yōu)選的,所述計(jì)算關(guān)鍵詞與新命題之間的語(yǔ)義相似度s(語(yǔ)義)的具體步驟包括:
48、將關(guān)鍵詞和新命題分別向量化表示為向量v關(guān)鍵詞和v新命題;
49、計(jì)算向量v關(guān)鍵詞和v新命題之間的余弦相似度cos;
50、如果cos>第三預(yù)設(shè)閾值θ3,則s(語(yǔ)義)=cos。
51、優(yōu)選的,所述步驟s3具體包括:
52、從預(yù)定義的領(lǐng)域特定知識(shí)庫(kù)中提取相關(guān)數(shù)據(jù),該知識(shí)庫(kù)包含了廣泛的事實(shí)、規(guī)則、邏輯關(guān)系以及領(lǐng)域特定的概念。
53、設(shè)知識(shí)庫(kù)為k,新命題為p,
54、對(duì)于p中的每個(gè)子命題pi,從k中尋找與pi語(yǔ)義最接近的命題集合?{k1,k2,…,kn},
55、計(jì)算命題pi與k中對(duì)應(yīng)命題kj的相似度,使用余弦相似度公式:,
56、其中,和是對(duì)應(yīng)命題的語(yǔ)義向量表示;
57、根據(jù)知識(shí)庫(kù)中的規(guī)則和邏輯,驗(yàn)證新命題與已知知識(shí)的邏輯一致性,對(duì)新命題ppp?的整體準(zhǔn)確性進(jìn)行評(píng)估,綜合考慮各個(gè)子命題的相似度和邏輯一致性,得出新命題的置信度分?jǐn)?shù)?c(p):
58、,
59、其中,是邏輯一致性得分。
60、優(yōu)選的,所述步驟s4具體包括:
61、基于步驟s3中的相似度和邏輯一致性結(jié)果,確定命題中錯(cuò)誤的位置,定位每個(gè)子命題pi的錯(cuò)誤點(diǎn),如果小于預(yù)設(shè)閾值,則認(rèn)為該子命題存在錯(cuò)誤;
62、利用領(lǐng)域特定知識(shí)庫(kù)中的正確命題集合{k1,k2,…,kn}進(jìn)行錯(cuò)誤修正,使用替換策略,選擇與pi相似度最高且邏輯一致性最佳的命題kj替換pi中的錯(cuò)誤部分,修正后的命題為:
63、;
64、將修正后的新命題再次通過(guò)知識(shí)庫(kù)驗(yàn)證,確保其語(yǔ)義和邏輯的一致,如果修正后的命題仍不滿足條件,則進(jìn)一步調(diào)整,直至命題的置信度達(dá)到設(shè)定的門(mén)檻值。
65、一種基于大模型新命題糾錯(cuò)系統(tǒng),采用所述的基于大模型新命題糾錯(cuò)方法,所述系統(tǒng)包括:
66、語(yǔ)境信息獲取模塊,該語(yǔ)境信息獲取模塊用于獲取大模型生成的新命題及其對(duì)應(yīng)的語(yǔ)境信息;
67、語(yǔ)義分析模塊,該語(yǔ)義分析模塊基于預(yù)訓(xùn)練的語(yǔ)言模型,對(duì)新命題進(jìn)行語(yǔ)義分析,識(shí)別新命題中的潛在錯(cuò)誤;
68、驗(yàn)證模塊,該驗(yàn)證模塊利用領(lǐng)域特定知識(shí)庫(kù)驗(yàn)證新命題的準(zhǔn)確性;
69、修正模塊,該修正模塊根據(jù)語(yǔ)義分析結(jié)果和驗(yàn)證反饋,自動(dòng)修正新命題中的錯(cuò)誤。
70、由上述技術(shù)方案可知,本發(fā)明具有如下有益效果:
71、該基于大模型新命題糾錯(cuò)方法及系統(tǒng),通過(guò)獲取生成的新命題及其對(duì)應(yīng)的語(yǔ)境信息,基于預(yù)訓(xùn)練的語(yǔ)言大模型對(duì)新命題進(jìn)行語(yǔ)義分析,識(shí)別其中的潛在錯(cuò)誤,利用領(lǐng)域特定知識(shí)庫(kù)驗(yàn)證所述新命題的準(zhǔn)確性,根據(jù)分析結(jié)果和驗(yàn)證反饋?zhàn)詣?dòng)修正新命題中的錯(cuò)誤,使得新命題糾錯(cuò),尤其是在處理那些沒(méi)有明確規(guī)則可循的新類(lèi)型錯(cuò)誤時(shí),更加智能和靈活,提高了準(zhǔn)確性和效率,解決了在如何開(kāi)發(fā)更加智能和靈活的糾錯(cuò)方法,以提高在處理新命題時(shí)的準(zhǔn)確性和效率問(wèn)題上,現(xiàn)有技術(shù)雖然已經(jīng)有一些研究嘗試通過(guò)增強(qiáng)模型的適應(yīng)性或結(jié)合多種技術(shù)手段來(lái)提升糾錯(cuò)效果,但仍然存在識(shí)別準(zhǔn)確性不足、對(duì)新類(lèi)型錯(cuò)誤處理能力有限等問(wèn)題。