一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法與流程

文檔序號：39729502發(fā)布日期：2024-10-22 13:34閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法與流程

本發(fā)明涉及自然語言處理和知識推理，尤其涉及一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法。

背景技術(shù)：

1、隨著自然語言處理和人工智能技術(shù)的快速發(fā)展，預(yù)訓(xùn)練的大規(guī)模語言模型在語言理解、問答、對話、文本生成等任務(wù)上取得了突破性進(jìn)展。這些模型通過在海量文本數(shù)據(jù)上的預(yù)訓(xùn)練，獲得了豐富的語言知識和語義表征能力，且隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增長，性能持續(xù)提升。

2、然而，現(xiàn)有語言模型在處理復(fù)雜科研知識時仍有以下具體挑戰(zhàn)：

3、1.科研文獻(xiàn)包含大量專業(yè)術(shù)語、復(fù)雜概念及其錯綜復(fù)雜的邏輯關(guān)系，傳統(tǒng)語言模型難以準(zhǔn)確理解其語義信息和概念關(guān)聯(lián)。

4、2.科研知識推理需要多輪思考、探索和信息綜合利用的能力，而現(xiàn)有語言模型主要關(guān)注單一輸入輸出任務(wù)，在推理、規(guī)劃等需要多輪交互和反饋的任務(wù)上表現(xiàn)不足。

5、3.科研知識的回答需要時效性，尤其在前沿領(lǐng)域如人工智能領(lǐng)域技術(shù)迭代周期在半年到一年左右，傳統(tǒng)的預(yù)訓(xùn)練方法無法及時跟進(jìn)最新的科研知識。

6、具體而言，傳統(tǒng)的語言模型推理方法，如基于思維鏈的提示學(xué)習(xí)，雖然在一定程度上賦予了語言模型推理能力，但推理過程線性，缺乏對不同推理路徑的探索。此外，現(xiàn)有方法主要依賴模型內(nèi)部知識，很少利用外部信息和實時反饋對推理過程進(jìn)行優(yōu)化和提升。專門構(gòu)建的科研文獻(xiàn)檢索系統(tǒng)雖可為語言模型注入外部知識，但如何實現(xiàn)與語言模型的即時互通補(bǔ)充，仍是亟需解決的問題。從認(rèn)知科學(xué)和心理學(xué)的研究來看，人類專家在解決復(fù)雜問題時，往往采取一種持續(xù)思考、動態(tài)規(guī)劃的策略，設(shè)想多條思路，通過外部交互獲取線索，評估并選擇最優(yōu)路徑，并根據(jù)新認(rèn)知調(diào)整策略。而現(xiàn)有語言模型推理方法在靈活性、多輪次探索優(yōu)化等方面還有待加強(qiáng)。

技術(shù)實現(xiàn)思路

1、為了解決以上技術(shù)問題，本發(fā)明提供了一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法，旨在構(gòu)建一個智能化、精準(zhǔn)化、可持續(xù)優(yōu)化的科研知識推理新范式，以顯著提升對復(fù)雜科研問題的理解和概念層層遞進(jìn)解答的能力。

2、本發(fā)明的技術(shù)方案是：

3、一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法，包括如下步驟：

4、(1)?預(yù)訓(xùn)練一個大規(guī)模語言模型，使其掌握科研領(lǐng)域的背景知識和復(fù)雜概念，能夠理解科研文獻(xiàn)中的專業(yè)術(shù)語、邏輯關(guān)系、前置知識等；

5、(2)?構(gòu)建一個面向科研文獻(xiàn)的專業(yè)檢索引擎，對海量的學(xué)術(shù)論文、專利、科技報告等進(jìn)行細(xì)粒度的語義索引，支持基于關(guān)鍵詞、語義、引文等多種檢索方式；

6、(3)?設(shè)計一個多輪協(xié)同推理框架，允許語言模型根據(jù)推理任務(wù)的需求，主動、多輪地向檢索引擎請求相關(guān)資料，并將獲取的新知識動態(tài)融入推理過程；

7、(4)?在協(xié)同推理框架中，通過任務(wù)關(guān)系拆解、定向資料搜索、資料邏輯梳理、提問關(guān)系分析、答案生成優(yōu)化等關(guān)鍵步驟，實現(xiàn)語言模型與檢索引擎的深度協(xié)同，生成準(zhǔn)確、完備、可信的推理答案；

8、(5)?引入基于強(qiáng)化學(xué)習(xí)的策略優(yōu)化機(jī)制，使語言模型能夠根據(jù)問題類型和資料特點，自適應(yīng)地調(diào)整推理策略和檢索策略；

9、(6)?融入自我反思和持續(xù)學(xué)習(xí)模塊，使語言模型能夠總結(jié)推理中的經(jīng)驗教訓(xùn)，動態(tài)更新和完善自身的領(lǐng)域知識圖譜，不斷提高面向復(fù)雜科研問題的推理能力。

10、進(jìn)一步的，在步驟(3)的多輪協(xié)同推理框架中，進(jìn)一步包括如下子步驟：

11、(3.1)?任務(wù)關(guān)系拆解：語言模型對用戶的科研問題進(jìn)行語義解析，提取其中的核心概念、關(guān)鍵術(shù)語、前置知識等，形成結(jié)構(gòu)化的推理任務(wù)譜系；

12、(3.2)?定向資料搜索：根據(jù)推理任務(wù)譜系，語言模型主動向檢索引擎提交針對性的檢索請求，搜集對應(yīng)概念、術(shù)語、背景的科研文獻(xiàn)資料；

13、(3.3)?資料邏輯梳理：語言模型對搜索到的資料進(jìn)行語義理解和邏輯關(guān)系抽取，構(gòu)建概念之間的遞進(jìn)關(guān)系、并列關(guān)系、轉(zhuǎn)折關(guān)系等，形成結(jié)構(gòu)化的知識圖譜；

14、(3.4)?提問關(guān)系分析：將用戶問題與資料知識圖譜進(jìn)行深層關(guān)聯(lián)，挖掘問題涉及的核心概念、前置概念、拓展概念，找出問題的關(guān)鍵線索；

15、(3.5)?答案生成優(yōu)化：在對資料充分理解的基礎(chǔ)上，語言模型綜合運用推理策略(如歸納、演繹、類比等)，結(jié)合問題特點動態(tài)組織答案結(jié)構(gòu)，給出內(nèi)容豐富、邏輯清晰的答案。

16、進(jìn)一步的，在步驟(5)中采用了一種語言模型推理和交互學(xué)習(xí)的方法，包括如下步驟：

17、(5.1)?將預(yù)訓(xùn)練的大規(guī)模語言模型視為一個智能體，使其能夠基于monte?carlo樹搜索(mcts)算法在動作空間和狀態(tài)空間上進(jìn)行探索和規(guī)劃：

18、(5.2)?定義包含思考推理(thought)和實際操作(action)的動作空間，允許語言模型在認(rèn)知推理和實際操作之間靈活切換，實現(xiàn)與外部環(huán)境的多輪交互：

19、(5.3)?引入融合語言模型估值和自洽性評分的節(jié)點價值評估函數(shù)，用于指導(dǎo)mcts搜索樹的構(gòu)建和節(jié)點選擇，平衡對已知高價值節(jié)點的利用和對新節(jié)點的探索：

20、(5.4)?通過即時環(huán)境反饋和基于語言模型的策略評估，實現(xiàn)搜索樹節(jié)點的擴(kuò)展、評估、模擬、回溯等mcts關(guān)鍵步驟，找到最優(yōu)的問題解決路徑：

21、(5.5)?融入反思機(jī)制，使語言模型能夠在每輪交互后對決策過程進(jìn)行總結(jié)分析，提煉經(jīng)驗教訓(xùn)，并作為先驗知識參與后續(xù)決策，實現(xiàn)策略的動態(tài)優(yōu)化和自我完善：

22、(5.6)?通過不斷的推理實踐和環(huán)境交互，使語言模型能夠持續(xù)學(xué)習(xí)和積累領(lǐng)域知識，形成具備多輪交互、策略優(yōu)化、自主學(xué)習(xí)等能力的通用智能體范式。

23、具體實施：

24、針對以上步驟，以具體公式為例進(jìn)行闡述：

25、首先定義其中所需要的模型變量，指代其中的大語言模型。是推理樹中的一個節(jié)點，表示一個狀態(tài)，狀態(tài)中包含原始的提問、執(zhí)行的動作、已獲得的回饋。中包含的具體動作有，（執(zhí)行搜索），（總結(jié)），（回退），（生成答案），（反思）。是對狀態(tài)的評估函數(shù)，這里可以用一個單獨訓(xùn)練的強(qiáng)化學(xué)習(xí)模型中的評估函數(shù)或者一個經(jīng)過微調(diào)的大語言模型給出。也可以采用經(jīng)過微調(diào)的評分模型。針對以上內(nèi)容設(shè)計一個蒙特卡羅搜索樹。

26、算法流程如下：

27、算法流程：

28、1.?初始化：

29、定義狀態(tài)的表示方式，包括原始問題、初始化的空動作序列和初始化的已觀察到的結(jié)果序列。形式化地，一個狀態(tài)表示為：

30、

31、其中是原始問題，是已采取的動作序列，是已觀察到的結(jié)果序列。初始化狀態(tài)，表示只有原始問題，沒有任何動作和觀察。初始化最佳答案。

32、2.?搜索循環(huán)：

33、從初始狀態(tài)開始，重復(fù)以下步驟，直到滿足終止條件：

34、a.?動作生成：

35、-?使用提示詞構(gòu)建函數(shù)，將當(dāng)前狀態(tài)轉(zhuǎn)化為提示詞：

36、；

37、-?將提示詞輸入到語言模型中，生成下一步的動作：

38、。

39、b.?動作執(zhí)行：

40、-?執(zhí)行動作，得到新的觀察結(jié)果；

41、-?更新狀態(tài)為。

42、c.?評估：

43、-?對于新的狀態(tài)，使用評估函數(shù)估計其價值。

44、?d.?選擇：

45、-?使用選擇函數(shù)，根據(jù)新的狀態(tài)選擇下一個要擴(kuò)展的動作：

46、；

47、e.?終止判斷：

48、-?如果滿足以下任一條件，則跳出搜索循環(huán)：

49、-?找到一個滿意的答案(根據(jù)問題的定義)

50、-?達(dá)到最大搜索深度

51、-?沒有更多的動作可以執(zhí)行

52、-?如果當(dāng)前狀態(tài)包含了一個答案，且該答案優(yōu)于，則更新為該答案。

53、f.?反思判斷：

54、-?如果當(dāng)前狀態(tài)滿足反思觸發(fā)條件，則執(zhí)行反思操作：

55、-?使用提示詞構(gòu)建函數(shù)，將當(dāng)前狀態(tài)和一個固定的錯誤提示組合成反思提示詞；

56、-?將反思提示詞輸入到語言模型中，生成反思文本：

57、；

58、-?將反思文本$r$添加到狀態(tài)中，形成新的狀態(tài)。

59、?g.?反向傳播：

60、-?如果當(dāng)前狀態(tài)是一個終止?fàn)顟B(tài)，則執(zhí)行反向傳播操作：

61、-?計算該狀態(tài)的實際價值。對于滿意的終止?fàn)顟B(tài)，：對于不滿意的終止?fàn)顟B(tài)，；

62、-?對于搜索路徑上的每個狀態(tài)，更新其價值估計：

63、；

64、-?更新狀態(tài)-動作對的訪問次數(shù)：

65、；

66、。

67、3.?輸出結(jié)果：

68、-?如果，則輸出作為問題的解；

69、-?否則，輸出"未找到滿意的解"。

70、算法的核心初始化模型及參數(shù)變量包含以下內(nèi)容：

71、-?語言模型；

72、-?提示詞構(gòu)建函數(shù)；

73、-?動作空間；

74、-?狀態(tài)評估函數(shù)；

75、-?選擇函數(shù)和本專利中采用的實現(xiàn)ucb?(upper?confidence?bound)；

76、-?最大搜索深度。

77、其中的三個公式的作用分別是：

78、選擇函數(shù)，

79、其中，ucb?(upper?confidence?bound)?實現(xiàn)選擇函數(shù)的公式：

80、，

81、其中：

82、-??是在狀態(tài)下選擇的動作；

83、-??表示選擇能使方括號內(nèi)的表達(dá)式取得最大值的動作；

84、-??是狀態(tài)-動作對??的價值估計；

85、-??是狀態(tài)被訪問的次數(shù)；

86、-?是狀態(tài)-動作對?被訪問的次數(shù)；

87、-??是一個超參數(shù)，用于控制探索的程度。

88、這個公式評估的核心由兩項組成：

89、1.?價值估計項?：

90、這一項表示了對在狀態(tài)下采取動作的長期價值的估計。鼓勵算法選擇那些過去表現(xiàn)好的動作。

91、2.?探索項?$$：

92、這一項的值與狀態(tài)-動作對被訪問的次數(shù)成反比。鼓勵算法選擇那些訪問次數(shù)較少的動作。當(dāng)一個狀態(tài)-動作對被頻繁訪問時，這一項的值會降低，從而減少對該動作的探索。

93、超參數(shù)控制了這兩項的相對重要性。的值越大，算法就越傾向于探索：?的值越小，算法就越傾向于利用。

94、狀態(tài)評估函數(shù)?由兩部分組成：語言模型得分??和自洽性得分?。

95、形式化地，狀態(tài)評估函數(shù)被定義為：

96、

97、其中：

98、-??是語言模型對狀態(tài)??的得分，反映了狀態(tài)??在語言模型看來的合理性和自然性。這個得分通過向語言模型詢問狀態(tài)??下答案的置信度來獲得；

99、-?是狀態(tài)的自洽性得分，鼓勵算法選擇那些在同一狀態(tài)下多次采樣都能獲得的動作。這個得分可以通過統(tǒng)計狀態(tài)??下不同動作的采樣頻率來計算；

100、-?是一個超參數(shù)，用于平衡語言模型得分和自洽性得分的重要性。

101、狀態(tài)評估函數(shù)試圖平衡兩個方面：狀態(tài)在語言模型看來的合理性和自然性，通過語言模型得分?來衡量。狀態(tài)下動作選擇的一致性和穩(wěn)定性，通過自洽性得分?來衡量。

102、1.?語言模型得分：

103、語言模型得分??反映了狀態(tài)??在語言模型??看來的合理性和自然性。這個得分的計算通過向語言模型詢問狀態(tài)下答案的置信度來實現(xiàn)。具體來說，給定一個狀態(tài)?，可以構(gòu)建一個，將狀態(tài)?的信息(如已執(zhí)行的動作序列和觀察到的結(jié)果)呈現(xiàn)給語言模型，然后詢問語言模型在當(dāng)前狀態(tài)下生成某個答案的置信度或概率。這個置信度或概率就可以作為語言模型得分。

104、形式化地，可以將語言模型得分表示為：

105、

106、其中?是語言模型，?是關(guān)心的答案，?是根據(jù)狀態(tài)?構(gòu)建的。表示語言模型在指示下的條件下生成答案??的置信度或概率。

107、直觀地說，如果一個狀態(tài)能夠?qū)е抡Z言模型以高置信度生成某個答案，那么這個狀態(tài)在語言模型看來就是合理和自然的，因此應(yīng)該得到較高的語言模型得分。

108、2.?自洽性得分：

109、自洽性得分衡量了在狀態(tài)下，動作選擇的一致性和穩(wěn)定性。它的計算通過統(tǒng)計在狀態(tài)下，不同動作被重復(fù)采樣的頻率來實現(xiàn)。具體來說，在搜索過程中，每個狀態(tài)都會被多次訪問，每次訪問都會在狀態(tài)下采樣一個動作。如果一個動作在狀態(tài)下被多次采樣到，那么可以認(rèn)為這個動作在狀態(tài)下是自洽的，因此應(yīng)該得到較高的自洽性得分。

110、形式化地，可以將自洽性得分表示為：

111、

112、其中是在狀態(tài)?$s$?下采樣到的所有動作的集合，是動作在狀態(tài)下被采樣的次數(shù)。這個公式計算了動作采樣頻率的二階矩，然后除以總采樣次數(shù)進(jìn)行歸一化。直觀地說，如果在狀態(tài)?下，某些動作被重復(fù)采樣的頻率很高，那么這個狀態(tài)的自洽性得分就會很高。

113、自洽性得分反映了鼓勵算法在同一狀態(tài)下做出一致和穩(wěn)定的決策。如果一個狀態(tài)下的動作選擇是隨機(jī)和不一致的，那么這個狀態(tài)的自洽性得分就會很低。通過引入自洽性得分，模型方法試圖找到那些能夠引導(dǎo)算法做出一致和確定性決策的狀態(tài)。

114、綜合起來，語言模型得分和自洽性得分提供了兩個不同但互補(bǔ)的視角來評估狀態(tài)的價值。語言模型得分關(guān)注狀態(tài)在語言理解和生成方面的合理性，而自洽性得分關(guān)注狀態(tài)在決策一致性方面的穩(wěn)定性。通過平衡這兩個得分狀態(tài)評估函數(shù)試圖找到那些既符合語言邏輯，又能引導(dǎo)一致決策的狀態(tài)。這種綜合的狀態(tài)評估機(jī)制是lats能夠在復(fù)雜語言推理和決策任務(wù)中取得良好性能的重要原因。

115、算法輸出：

116、-?問題的解(如果找到)或當(dāng)前最佳的回答。

117、本發(fā)明構(gòu)建一個多輪協(xié)同推理框架，將預(yù)訓(xùn)練的大規(guī)模語言模型和專門構(gòu)建的領(lǐng)域知識庫無縫集成。其中，語言模型負(fù)責(zé)對科研問題進(jìn)行語義理解、任務(wù)分解和知識提取等：領(lǐng)域知識庫則由海量科研文獻(xiàn)通過細(xì)粒度語義索引構(gòu)建而成，能夠為語言模型推理提供精準(zhǔn)、全面的外部知識支持。在推理過程中，語言模型根據(jù)任務(wù)需求，主動、多輪地向知識庫查詢相關(guān)文獻(xiàn)資料，并將獲取的新知識動態(tài)融入后續(xù)推理步驟，實現(xiàn)認(rèn)知推理與知識檢索的協(xié)同增強(qiáng)。

118、本發(fā)明的協(xié)同推理框架包含五個關(guān)鍵技術(shù)步驟：任務(wù)關(guān)系拆解、定向資料搜索、資料邏輯梳理、提問關(guān)系分析和答案生成優(yōu)化。語言模型通過深層語義理解，利用大語言模型刻畫概念間的遞進(jìn)、并列、轉(zhuǎn)折等復(fù)雜語義關(guān)系，動態(tài)構(gòu)建知識圖譜。并綜合運用歸納、演繹、類比等推理策略，結(jié)合問題特點動態(tài)規(guī)劃答案結(jié)構(gòu)，生成內(nèi)容豐富、邏輯清晰的答案。

119、此外，本發(fā)明引入了基于強(qiáng)化學(xué)習(xí)的推理策略動態(tài)優(yōu)化機(jī)制。通過獎勵機(jī)制引導(dǎo)語言模型學(xué)習(xí)根據(jù)問題類型和資料特點自適應(yīng)地調(diào)整推理和知識使用策略，并通過自我反思和持續(xù)學(xué)習(xí)模塊，使其能夠從推理實踐中不斷積累經(jīng)驗，動態(tài)更新和完善領(lǐng)域知識，實現(xiàn)推理能力的持續(xù)提升。

120、本發(fā)明創(chuàng)新性地融合了自然語言處理、信息檢索、知識推理等多個領(lǐng)域的前沿技術(shù)，開創(chuàng)了語言模型與知識庫協(xié)同增強(qiáng)的科研知識推理新范式。該方法能夠更加智能、高效、魯棒地應(yīng)對復(fù)雜科研問題，為科研知識服務(wù)和創(chuàng)新提供重要技術(shù)支撐。

121、本發(fā)明的有益效果是：

122、1.顯著提升復(fù)雜科研問題的推理和求解能力：本發(fā)明通過融合大規(guī)模語言模型和領(lǐng)域知識庫，構(gòu)建多輪協(xié)同推理框架，能夠像人類專家一樣對復(fù)雜科研問題進(jìn)行深入理解和系統(tǒng)求解。該方法在語義理解、知識捕獲、邏輯推理等方面具有顯著優(yōu)勢，大幅提升了復(fù)雜問題的處理效果。

123、2.實現(xiàn)語言模型與外部知識的動態(tài)協(xié)同：通過引入專業(yè)檢索引擎和知識庫，并設(shè)計語言模型與之交互的機(jī)制，本發(fā)明突破了傳統(tǒng)語言模型知識封閉、無法動態(tài)擴(kuò)展的瓶頸。語言模型可以主動獲取推理任務(wù)所需的外部知識，并動態(tài)融入推理過程，實現(xiàn)了知識的即時補(bǔ)充和更新，提高了推理的準(zhǔn)確性和全面性。

124、3.賦予語言模型多輪探索推理和策略優(yōu)化能力：本發(fā)明在推理框架中引入了基于mcts的探索機(jī)制和基于強(qiáng)化學(xué)習(xí)的策略優(yōu)化機(jī)制，使語言模型具備了多輪探索推理和自適應(yīng)策略調(diào)整的能力。該方法克服了傳統(tǒng)語言模型推理過程單一、線性、缺乏反饋優(yōu)化的局限，使其能夠更加靈活、高效地探索問題解空間，尋找最優(yōu)推理路徑。

125、4.實現(xiàn)元認(rèn)知和持續(xù)學(xué)習(xí)，推理能力不斷進(jìn)化：通過融入自我反思和持續(xù)學(xué)習(xí)模塊，本發(fā)明賦予了語言模型元認(rèn)知和自我優(yōu)化的能力。語言模型可以從推理實踐中總結(jié)經(jīng)驗教訓(xùn)，調(diào)整推理策略，并將知識遷移到新的任務(wù)中。這使得系統(tǒng)的推理能力可以在不斷的應(yīng)用實踐中持續(xù)進(jìn)化和提升，具有自我完善的特點。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任佰軍,王新虎,丁清松,王彥功,李振平,王蘭,徐金鴻,王賓
技術(shù)所有人：浪潮軟件科技有限公司
我是此專利的發(fā)明人

上一篇：高靈敏度扭轉(zhuǎn)方向識別的光纖形狀傳感器、測量裝置及方法
上一篇：一種電力施工電力管切割裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于大語言模型與領(lǐng)域知識庫動態(tài)協(xié)同的復(fù)雜問題推理方法與流程