本發(fā)明涉及人工智能領(lǐng)域相關(guān)技術(shù),尤其涉及一種中醫(yī)四診大模型構(gòu)建方法及平臺。
背景技術(shù):
1、人工智能技術(shù)已在多個領(lǐng)域取得顯著進展,特別是在自然語言處理方面,通過中文大模型實現(xiàn)了高效問答,為信息檢索與交互帶來了前所未有的便捷。
2、在中醫(yī)這一診療邏輯復雜的領(lǐng)域中,當前的中文大模型仍面臨挑戰(zhàn)。中文大模型雖能一定程度上整合觀察與詢問(即“問”與部分“望”)的過程,然而,中醫(yī)理論涉及大量的專業(yè)術(shù)語和復雜的概念體系,這些都需要模型具備深厚的中醫(yī)理論基礎(chǔ)和豐富的臨床經(jīng)驗才能準確理解,因而,現(xiàn)有的中文大模型難以根據(jù)中醫(yī)四診信息模擬中醫(yī)醫(yī)生的臨床思維和決策過程,輸出更加科學的中醫(yī)診斷結(jié)果。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明公開了一種中醫(yī)四診大模型構(gòu)建方法及平臺。
2、本發(fā)明公開了一種中醫(yī)四診大模型構(gòu)建方法,包括以下步驟:
3、根據(jù)預設(shè)的范式獲取中醫(yī)四診數(shù)據(jù)并對所述中醫(yī)四診數(shù)據(jù)進行預處理,得到具有可解釋性的四診特征集;
4、根據(jù)所述中醫(yī)四診數(shù)據(jù)和四診特征集確定期望診斷結(jié)果;
5、根據(jù)所述四診特征集和所述期望診斷結(jié)果,構(gòu)建指令微調(diào)數(shù)據(jù)集;
6、根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型。
7、優(yōu)選的,在根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型之后,還包括:
8、構(gòu)建測試集;
9、在所述測試集上獲取所述中醫(yī)四診大模型的模型診斷結(jié)果;
10、根據(jù)所述模型診斷結(jié)果以及預設(shè)的標準診斷結(jié)果,對所述中醫(yī)四診大模型進行對齊與優(yōu)化。
11、優(yōu)選的,根據(jù)所述模型診斷結(jié)果以及預設(shè)的標準診斷結(jié)果,對所述中醫(yī)四診大模型進行對齊與優(yōu)化,具體為:
12、根據(jù)所述模型診斷結(jié)果以及預設(shè)的標準診斷結(jié)果,訓練獎勵模型;
13、根據(jù)所述獎勵模型的輸出結(jié)果,對所述中醫(yī)四診大模型進行對齊與優(yōu)化。
14、優(yōu)選的,根據(jù)所述中醫(yī)四診數(shù)據(jù)和四診特征集確定期望診斷結(jié)果,具體為:
15、請資深醫(yī)師根據(jù)對所述中醫(yī)四診數(shù)據(jù)和四診特征集進行分析,得到預期診斷結(jié)果。
16、優(yōu)選的,所述中醫(yī)四診數(shù)據(jù)包括圖像醫(yī)療數(shù)據(jù)、一維時序數(shù)據(jù)、語音數(shù)據(jù)以及文檔數(shù)據(jù);
17、具體的,圖像醫(yī)療數(shù)據(jù)包括舌象數(shù)據(jù)以及面象數(shù)據(jù)中的至少一種;一維時序數(shù)據(jù)包括脈象數(shù)據(jù)以及口腔呼出氣體成分曲線中的至少一種;語音數(shù)據(jù)包括醫(yī)患問診對話以及特定朗讀任務(wù)診斷記錄中的至少一種;文檔數(shù)據(jù)包括生化檢查結(jié)果。
18、優(yōu)選的,根據(jù)預設(shè)的范式獲取中醫(yī)四診數(shù)據(jù),具體為:
19、采用具有拍攝功能的設(shè)備獲取圖像醫(yī)療數(shù)據(jù);
20、利用基于壓電、壓阻的脈診儀獲取脈象數(shù)據(jù)和/或利用包含多個傳感器陣列的電子鼻系統(tǒng),獲取口腔呼出氣體成分曲線,并將脈象數(shù)據(jù)和/或口腔呼出氣體成分曲線儲存為一維時序數(shù)據(jù);
21、采用麥克風或者手機獲取醫(yī)患問診對話和/或特定朗讀任務(wù)診斷記錄,存儲為語音數(shù)據(jù);
22、通過手機攝像頭掃描獲取生化檢查結(jié)果,存儲為文檔數(shù)據(jù)。
23、優(yōu)選的,對所述中醫(yī)四診數(shù)據(jù)進行預處理,得到具有可解釋性的四診特征集,具體為:
24、以標準化后的色卡做參照,統(tǒng)一所述圖像醫(yī)療數(shù)據(jù)的顏色空間分布,并對統(tǒng)一顏色空間分布后的圖像醫(yī)療數(shù)據(jù),利用基于深度學習的分割算法進行分割及質(zhì)量增強,提取可解釋舌象特征集和/或可解釋面象特征集;
25、對一維時序數(shù)據(jù)中的脈搏波信號進行分割與編碼,提取可解釋脈象特征集和/或利用小波變換法從口腔呼出氣體成分曲線中提取可解釋呼出氣體特征集;
26、利用音頻特征提取算法從所述語音數(shù)據(jù)中提取可解釋聲學特征集;
27、基于ocr技術(shù),從文檔數(shù)據(jù)中提取可解釋生化特征集。
28、優(yōu)選的,所述可解釋舌象特征集包括苔質(zhì)、顏色、瘀斑、淤點、齒痕、紋理以及裂紋中至少兩種;
29、所述可解釋面象特征集包括眼部和嘴部的顏色、瘀斑、紋理特征以及面部輪廓關(guān)鍵點中的至少兩種;
30、所述可解釋脈象特征集包括脈搏波關(guān)鍵點、單個脈搏波周期曲線尾部走勢、周期性、雜亂度、gabor特征以及離散傅里葉特征中的至少兩種;
31、所述可解釋呼出氣體特征集包括wavelet特征、波峰與波谷差值、時域關(guān)鍵點、曲線變化曲率、二階導數(shù)以及協(xié)方差特征中的至少兩種;
32、所述可解釋聲學特征集包括時基誤差,振幅微擾以及梅爾頻譜中的至少兩種;
33、所述可解釋生化特征集包括血常規(guī)、肝腎功能化驗結(jié)果中的至少一種。
34、優(yōu)選的,根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型,具體為:
35、根據(jù)預設(shè)的微調(diào)策略,利用所述指令微調(diào)數(shù)據(jù)集對中文大模型的嵌入層和全連接層進行微調(diào),得到中醫(yī)四診大模型。
36、本發(fā)明還公開了一種中醫(yī)四診大模型構(gòu)建平臺,所述平臺包括:
37、數(shù)據(jù)獲取及處理模塊:用于根據(jù)預設(shè)的范式獲取中醫(yī)四診數(shù)據(jù)并對所述中醫(yī)四診數(shù)據(jù)進行預處理,得到具有可解釋性的四診特征集;
38、期望診斷結(jié)果確定模塊:用于根據(jù)所述四診特征集確定期望診斷結(jié)果;
39、指令微調(diào)數(shù)據(jù)集構(gòu)建模塊:用于根據(jù)所述四診特征集和所述期望診斷結(jié)果,構(gòu)建指令微調(diào)數(shù)據(jù)集;
40、模型微調(diào)模塊:用于根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型。
41、相較于現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:
42、(1)本發(fā)明通過指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型,本發(fā)明的中醫(yī)四診大模型能夠充分學習基于“望聞問切”的中醫(yī)診斷規(guī)律和知識,從而能夠?qū)斎氲乃脑\特征集進行智能分析和診斷,模擬中醫(yī)專家的診斷過程,輸出個性化、全面且專業(yè)的診斷結(jié)果;
43、(2)本發(fā)明對中醫(yī)四診數(shù)據(jù)進行預處理,得到了可解釋性強,適應大語言模式的四診特征集,根據(jù)四診特征集得到的期望診斷結(jié)果包含體質(zhì)診斷、疾病診斷以及病理分析等內(nèi)容,使得本發(fā)明的中醫(yī)四診大模型能夠提供多種患者所需信息并且具有較強解釋性的診斷依據(jù),讓患者充分了解病因、病情;
44、(3)本發(fā)明訓練獎勵模型,根據(jù)獎勵模型對中醫(yī)四診大模型進行了優(yōu)化,提升了中醫(yī)四診大模型輸出結(jié)果與人類偏好的一致性。
1.一種中醫(yī)四診大模型構(gòu)建方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,在根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型之后,還包括:
3.根據(jù)權(quán)利要求2所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,根據(jù)所述模型診斷結(jié)果以及預設(shè)的標準診斷結(jié)果,對所述中醫(yī)四診大模型進行對齊與優(yōu)化,具體為:
4.根據(jù)權(quán)利要求1所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,根據(jù)所述中醫(yī)四診數(shù)據(jù)和四診特征集確定期望診斷結(jié)果,具體為:
5.根據(jù)權(quán)利要求1所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,所述中醫(yī)四診數(shù)據(jù)包括圖像醫(yī)療數(shù)據(jù)、一維時序數(shù)據(jù)、語音數(shù)據(jù)以及文檔數(shù)據(jù);
6.根據(jù)權(quán)利要求5所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,根據(jù)預設(shè)的范式獲取中醫(yī)四診數(shù)據(jù),具體為:
7.根據(jù)權(quán)利要求6所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,對所述中醫(yī)四診數(shù)據(jù)進行預處理,得到具有可解釋性的四診特征集,具體為:
8.根據(jù)權(quán)利要求7所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,所述可解釋舌象特征集包括苔質(zhì)、顏色、瘀斑、淤點、齒痕、紋理以及裂紋中的至少兩種;
9.根據(jù)權(quán)利要求1所述的中醫(yī)四診大模型構(gòu)建方法,其特征在于,根據(jù)預設(shè)的微調(diào)策略和所述指令微調(diào)數(shù)據(jù)集微調(diào)中文大模型,得到中醫(yī)四診大模型,具體為:
10.一種中醫(yī)四診大模型構(gòu)建平臺,其特征在于,所述平臺包括: