本發(fā)明涉及一種基于大語言模型的維修方案生成系統(tǒng)、方法及程序產品,屬于人工智能。
背景技術:
1、隨著智能化設備的發(fā)展,設備及工況的復雜性不斷增加,隨之而來的一線維修人員工作任務變的繁重,因此對生產活動中的電子化維修方案需求度越來越高。傳統(tǒng)的交互式電子技術手冊(ietm)正變得越來越低效和過時。例如,現(xiàn)場維修人員在維修過程中提供了大量的經驗維修信息支持,但通常信息會存在過載、冗余、更新慢等特點,且在少樣本維修需求時,ietm中精準檢索對維修人員的專業(yè)素養(yǎng)要求較高,因此,現(xiàn)有的ietm不便于對維修信息進行高效管理和定制化。
2、為克服上述問題,公開號為cn117522372a的中國發(fā)明專利申請公開了一種基于深度學習的汽車故障模型的維修建議生成方法及系統(tǒng),方法包含:獲取汽車故障描述數據、維修手冊及專家數據庫,進行預處理,得到與汽車故障問答的對話數據,并對對話數據進行格式化處理,得到格式化處理后的對話數據;以汽車故障描述、維修手冊及專家數據庫作為節(jié)點通過關系映射,將節(jié)點連接,形成知識圖譜;進行垂直領域的多任務微調訓練;獲取用戶輸入的汽車故障描述,查詢知識圖譜獲取專業(yè)知識作為汽車故障描述的提示,并對汽車故障進行定位,同時生成維修建議,呈現(xiàn)故障定位結果及維修建議;系統(tǒng)包含:數據獲取處理模塊、知識圖譜形成模塊、模型微調訓練模塊及故障結果輸出模塊;實現(xiàn)了汽車故障定位和維修建議生成。
3、但上述方法及系統(tǒng)不能自主學習,適應新環(huán)境和新任務能力差;沒有自主規(guī)劃的能力;不能夠適應真實檢索環(huán)境中的復雜環(huán)境;不能夠根據檢索環(huán)境的變化和反饋做出相應的調整,這難以滿足用戶對智能化維護維修的需求。
技術實現(xiàn)思路
1、為克服現(xiàn)有技術中存在的缺點,本發(fā)明的發(fā)明目的是提供一種基于大語言模型的維修方案生成系統(tǒng)、方法及計算機程序產品,其能自主學習,具有適應新環(huán)境和新任務能力;具有自主規(guī)劃的能力;夠適應真實檢索環(huán)境中的復雜環(huán)境;能夠根據檢索環(huán)境的變化和反饋做出相應的調整。
2、為實現(xiàn)所述發(fā)明目的,本發(fā)明一方面提供一種基于大語言模型的維修方案生成系統(tǒng),其包括多級智能體,其中,一級智能體包括任務分配器、相關計算器、第一比較器和訓練器,所述任務分配器用于給k個二級智能體中的每個智能體分配維修問題,相關計算器用于計算每個二級智能體檢索到的維修方案與分配的維修問題的相關度,第一比較器用于將相關度與閾值進行比較,將相關度大于或者等于閾值的維修方案提供給訓練器;訓練器利用相關度大于或者等于閾值的二級智能體檢索到的維修方案集合、目標檢索策略網絡預測的檢索策略集合和獎勵集合計算第一時間方差目標值,并廣播給k個二級智能體;二級智能體ak至少包括檢索策略網絡和目標檢索策略網絡,其中,檢索策略網絡表示為:,為檢索策略網絡的參數;目標檢索策略網絡表示為:,為目標檢測策略網絡的參數;檢索策略網絡被配置為根據任務分配器分配的維修問題在數據庫中進行檢索生成針對維修問題的當前時間t的維修方案,并將當前時間t的檢索策略、維修方案、獎勵匯報給一級智能體;目標檢索策略網絡做預測得到下一時間t+1的目標檢索策略),并將目標檢索策略、下一時間t+1檢索到的維修方案匯報給一級智能體,k=1,2,…,k。
3、為實現(xiàn)所述發(fā)明目的,本發(fā)明還提供一種基于大語言模型的維修方案生成方法,其包括如下步驟:
4、步驟1:通過一級智能體的任務分配器給k個二級智能體中的每個智能體分配維修問題;
5、步驟2:通過一級智能體的相關計算器計算每個二級智能體檢索到的維修方案與分配的維修問題的相關度;通過第一比較器將相關度與閾值進行比較,將相關度大于或者等于閾值的維修改方案提供給訓練器;
6、步驟3:通過一級智能體的訓練器利用相關度大于或者等于閾值的二級智能體檢索到的維修方案集合、目標檢索策略網絡預測檢索策略集合和獎勵集合計算得到第一時間方差目標值,并將第一時間方差目標值廣播給k個二級智能體;
7、步驟4:通過二級智能體ak的檢索策略網絡根據任務分配器分配的維修問題在數據庫中進行檢索生成針對維修問題的維修方案,并將檢索策略、檢獎勵匯報給一級智能體,k=1,2,…,k;
8、步驟5:通過二級智能體ak的目標檢索策略網絡做預測得到下一時間t+1的目標檢索策略),并將目標檢索策略、下一時間t+1檢索到的維修方案匯報給一級智能體,為目標檢索策略網絡的參數,k=1,2,…,k。
9、為實現(xiàn)所述發(fā)明目的,本發(fā)明還提供一種計算機程序產品,其包計算機程序代碼,所述計算機程序代碼能夠調處理器調用以執(zhí)行上述的方法。
10、與現(xiàn)有技術相比,本發(fā)明提供的基于大語言模型的維修方案生成系統(tǒng)、方法及計算機程序產品通過大語言模型與強化學習相結合來獲取針對分配的維修問題的維修方案,通過智能體與環(huán)境的交互來學習,?不需要依賴人工標注的數據,?具有自主學習的特點,使得它能夠適應新環(huán)境和新任務;能夠考慮獎勵來做出當前的決策,?具有自主規(guī)劃的能力;能夠適應真實檢索環(huán)境中的復雜環(huán)境;能夠根據檢索環(huán)境的變化和反饋做出相應的調整,?具有較強的適應性。
1.一種基于大語言模型的維修方案生成系統(tǒng),其特征在于,包括多級智能體,其中,一級智能體包括任務分配器、相關計算器、第一比較器和訓練器,所述任務分配器用于給k個二級智能體中的每個智能體分配維修問題,相關計算器用于計算每個二級智能體檢索到的維修方案與分配的維修問題的相關度,第一比較器用于將相關度與閾值進行比較,將相關度大于或者等于閾值的維修方案提供給訓練器;訓練器利用相關度大于或者等于閾值的二級智能體檢索到的維修方案集合、目標檢索策略網絡預測的檢索策略集合和獎勵集合計算第一時間方差目標值,并廣播給k個二級智能體;二級智能體ak至少包括檢索策略網絡和目標檢索策略網絡,其中,檢索策略網絡表示為:,為檢索策略網絡的參數;目標檢索策略網絡表示為:,為目標檢測策略網絡的參數;檢索策略網絡被配置為根據任務分配器分配的維修問題在數據庫中進行檢索生成針對維修問題的當前時間t的維修方案,并將當前時間t的檢索策略、維修方案、獎勵匯報給一級智能體;目標檢索策略網絡做預測得到下一時間t+1的目標檢索策略),并將目標檢索策略、下一時間t+1檢索到的維修方案匯報給一級智能體,k=1,2,…,k。
2.根據權利要求1所述的基于大語言模型的維修方案生成系統(tǒng),其特征在于,訓練器包括第一價值網絡、第一目標價值網絡和第一誤差計算器,其中,第一價值網絡的動作價值函數為,為k個二級智能體當前時間t檢索到的維修方案集合中的每個維修方案利用相關計算器分別與分配的維修問題進行相關度運算,相關度大于等于閾值的維修方案集合,對應的檢索策略集合為:,對應的獎勵集合為:,為第一價值網絡的參數,為相關度大于或者等于閾值的二級智能體am當前時間t根據檢索策略檢索到的維修方案,為對應的獎勵,m=1,…,m,m為小于或者等于k的正整數;第一目標價值網絡動作價值函數為,為第一目標價值網絡動作價值函數的參數;訓練器的訓練過程包括:
3.根據權利要求2所述的基于大語言模型的維修方案生成系統(tǒng),其特征在于,二級智能體ak還包括第二價值網絡、第二目標價值網絡、第二比較器和第二誤差計算器,第二價值網絡的動作價值函數為,為二級智能體ak的第二價值網絡的參數,第二目標價值網絡的動作價值函數為,為二級智能體ak的第二目標價值網絡的參數,其中,
4.根據權利要求3所述的基于大語言模型的維修方案生成系統(tǒng),其特征在于,二級智能體ak讓檢索策略網絡做預測得到預測的檢索策略:;
5.根據權利要求4所述的基于大語言模型的維修方案生成系統(tǒng),其特征在于,檢索策略網絡和目標檢索策略網絡均包括低秩適配器和llm模型,其中,低秩適配器被配置為對任務分配器分配的維修問題進行優(yōu)化并提供llm模型,llm模型被配置為根據低秩適配器提供的優(yōu)化任務從數據庫進行檢索生成針對任務的維修方案。
6.一種基于大語言模型的維修方案生成方法,其特征在于,包括如下步驟:
7.根據權利要求6所述的基于大語言模型的維修方案生成方法,其特征在于,還包括:
8.根據權利要求7所述的基于大語言模型的維修方案生成方法,其特征在于,還包括:
9.根據權利要求8所述的基于大語言模型的維修方案生成方法,其特征在于,還包括:
10.一種計算機程序產品,其特征在于,其包計算機程序代碼,所述計算機程序代碼能夠被處理器調用以執(zhí)行權利要求6-9任一項所述的方法。