午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲(chǔ)方法與流程

文檔序號(hào):39729605發(fā)布日期:2024-10-22 13:34閱讀:7來(lái)源:國(guó)知局
用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲(chǔ)方法與流程

本說(shuō)明書一個(gè)或多個(gè)實(shí)施例涉及人工智能和存儲(chǔ),尤其涉及一種用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲(chǔ)方法。


背景技術(shù):

1、人工智能(artificial?intelligence,ai)模型正逐漸成為推動(dòng)科技進(jìn)步的關(guān)鍵力量。ai模型,尤其是深度學(xué)習(xí)模型,通過(guò)模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與功能,能夠在大量數(shù)據(jù)中自動(dòng)提取特征,實(shí)現(xiàn)對(duì)復(fù)雜模式的學(xué)習(xí)與預(yù)測(cè)。從語(yǔ)音識(shí)別到圖像分析,再到自然語(yǔ)言處理,ai模型的應(yīng)用范圍廣泛,極大地提升了自動(dòng)化水平與效率,成為各行業(yè)創(chuàng)新的核心驅(qū)動(dòng)力。

2、在相關(guān)技術(shù)中,通過(guò)在站點(diǎn)內(nèi)部署計(jì)算節(jié)點(diǎn)和緩存節(jié)點(diǎn),緩存節(jié)點(diǎn)可以為計(jì)算節(jié)點(diǎn)提供高效的緩存服務(wù)。具體地,緩存節(jié)點(diǎn)可以將訓(xùn)練所需的數(shù)據(jù)集寫入本地,以供計(jì)算節(jié)點(diǎn)進(jìn)行讀取和使用。以及,計(jì)算節(jié)點(diǎn)在ai模型的訓(xùn)練過(guò)程中會(huì)生成checkpoint(檢查點(diǎn)),并將其寫入緩存節(jié)點(diǎn)。相比于直接與遠(yuǎn)程存儲(chǔ)系統(tǒng)進(jìn)行數(shù)據(jù)交互,計(jì)算節(jié)點(diǎn)在與同站點(diǎn)內(nèi)的緩存節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交互,能夠極大地提升io效率。

3、然而,相關(guān)技術(shù)中的緩存節(jié)點(diǎn)對(duì)于checkpoint文件的寫入耗時(shí)過(guò)長(zhǎng)。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本說(shuō)明書一個(gè)或多個(gè)實(shí)施例提供技術(shù)方案如下:

2、根據(jù)本說(shuō)明書一個(gè)或多個(gè)實(shí)施例的第一方面,提出了一種用于人工智能模型訓(xùn)練的系統(tǒng),包括:模型訓(xùn)練模塊和第一緩存模塊;

3、所述模型訓(xùn)練模塊,用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),所述訓(xùn)練任務(wù)的計(jì)算由gpu芯片執(zhí)行;以及,在執(zhí)行所述訓(xùn)練任務(wù)的過(guò)程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;

4、所述第一緩存模塊,對(duì)獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別,其中:若所述待存儲(chǔ)數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲(chǔ)數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;若所述待存儲(chǔ)數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲(chǔ)數(shù)據(jù)存入所述本地硬盤。

5、根據(jù)本說(shuō)明書一個(gè)或多個(gè)實(shí)施例的第二方面,提出了一種模型訓(xùn)練場(chǎng)景下的checkpoint文件存儲(chǔ)方法,包括:應(yīng)用于系統(tǒng)中的第一緩存模塊,還系統(tǒng)內(nèi)還部署有模型訓(xùn)練模塊,該模型訓(xùn)練模塊用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),該訓(xùn)練任務(wù)的計(jì)算由gpu芯片執(zhí)行,以及在執(zhí)行所述訓(xùn)練任務(wù)的過(guò)程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述方法包括:

6、對(duì)獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別;

7、若所述待存儲(chǔ)數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲(chǔ)數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;

8、若所述待存儲(chǔ)數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲(chǔ)數(shù)據(jù)存入所述本地硬盤。

9、根據(jù)本說(shuō)明書一個(gè)或多個(gè)實(shí)施例的第三方面,提出了一種電子設(shè)備,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器通過(guò)運(yùn)行所述可執(zhí)行指令以實(shí)現(xiàn)如第二方面所述方法的步驟。

10、根據(jù)本說(shuō)明書一個(gè)或多個(gè)實(shí)施例的第四方面,提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第二方面所述方法的步驟。

11、根據(jù)本說(shuō)明書一個(gè)或多個(gè)實(shí)施例的第五方面,提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第二方面所述方法的步驟。

12、由上述實(shí)施例可知,本說(shuō)明書通過(guò)對(duì)第一緩存模塊獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別,使得第一緩存模塊可以基于識(shí)別結(jié)果自動(dòng)化地選擇更加恰當(dāng)?shù)拇鎯?chǔ)策略,以滿足不同類型的數(shù)據(jù)的存儲(chǔ)需求。針對(duì)數(shù)據(jù)集類型的待存儲(chǔ)數(shù)據(jù),通過(guò)buffer機(jī)制進(jìn)行緩存,可以適應(yīng)于模型訓(xùn)練模塊對(duì)數(shù)據(jù)集的頻繁讀取需求,使得模型訓(xùn)練模塊能夠盡量從buffer而非硬盤中讀取數(shù)據(jù)集,以提升針對(duì)數(shù)據(jù)集的讀取效率。而針對(duì)checkpoint文件類型的待存儲(chǔ)數(shù)據(jù),由于對(duì)checkpoint文件的讀取需求極低,故而通過(guò)將其直接存入本地硬盤,可以避免buffer管理開銷造成對(duì)checkpoint文件的寫入耗時(shí)增加,提高checkpoint文件的寫入效率。并且,由于ai模型的訓(xùn)練任務(wù)在checkpoint文件的寫入過(guò)程中處于中止?fàn)顟B(tài),故而對(duì)checkpoint的快速寫入還有助于盡早恢復(fù)ai模型的訓(xùn)練任務(wù),從而提升ai模型的訓(xùn)練效率,以及提升模型訓(xùn)練模塊的資源利用率。



技術(shù)特征:

1.一種用于人工智能模型訓(xùn)練的系統(tǒng),包括:模型訓(xùn)練模塊和第一緩存模塊;

2.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊對(duì)獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別,包括:

3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊還用于:

4.根據(jù)權(quán)利要求3所述的系統(tǒng),所述第一緩存模塊,還用于:

5.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊,還用于:

6.根據(jù)權(quán)利要求1所述的系統(tǒng),該系統(tǒng)所含的緩存模塊部署于全閃緩存節(jié)點(diǎn)。

7.一種模型訓(xùn)練場(chǎng)景下的checkpoint文件存儲(chǔ)方法,應(yīng)用于系統(tǒng)中的第一緩存模塊,還系統(tǒng)內(nèi)還部署有模型訓(xùn)練模塊,該模型訓(xùn)練模塊用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),該訓(xùn)練任務(wù)的計(jì)算由gpu芯片執(zhí)行,以及在執(zhí)行所述訓(xùn)練任務(wù)的過(guò)程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述方法包括:

8.根據(jù)權(quán)利要求7所述的方法,所述對(duì)獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別,包括:

9.根據(jù)權(quán)利要求7所述的方法,還包括:

10.根據(jù)權(quán)利要求9所述的方法,還包括:

11.根據(jù)權(quán)利要求7所述的方法,還包括:

12.一種電子設(shè)備,包括:處理器;用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;其中,所述處理器通過(guò)運(yùn)行所述可執(zhí)行指令以實(shí)現(xiàn)如權(quán)利要求7-11中任一項(xiàng)所述方法的步驟。

13.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求7-11中任一項(xiàng)所述方法的步驟。

14.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求7-11中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本說(shuō)明書一個(gè)或多個(gè)實(shí)施例提供一種用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲(chǔ)方法,該系統(tǒng)包括:模型訓(xùn)練模塊和第一緩存模塊;所述模型訓(xùn)練模塊,用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),所述訓(xùn)練任務(wù)的計(jì)算由GPU芯片執(zhí)行;以及,在執(zhí)行所述訓(xùn)練任務(wù)的過(guò)程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述第一緩存模塊,對(duì)獲取的待存儲(chǔ)數(shù)據(jù)進(jìn)行類型識(shí)別,其中:若所述待存儲(chǔ)數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲(chǔ)數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;若所述待存儲(chǔ)數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲(chǔ)數(shù)據(jù)存入所述本地硬盤。

技術(shù)研發(fā)人員:劉鍵,顧樹威,詹曉君,阮若夷
受保護(hù)的技術(shù)使用者:支付寶(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1