本發(fā)明屬于算力網(wǎng)絡(luò)領(lǐng)域,特別是關(guān)于一種ai(artificial?intelligence,人工智能)算力網(wǎng)絡(luò)的智能管控方法。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,算力網(wǎng)絡(luò)數(shù)據(jù)中心內(nèi)的服務(wù)器數(shù)量從數(shù)百臺(tái)增加到數(shù)萬(wàn)臺(tái),同時(shí),分布式訓(xùn)練的大模型算法依托大量的底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施如服務(wù)器、交換機(jī)等,管理難度大幅上升,因此,必須對(duì)算力網(wǎng)絡(luò)的各種大規(guī)模、分散的資源進(jìn)行高效地管控。
2、傳統(tǒng)的網(wǎng)絡(luò)管控往往采用較集中的管理架構(gòu)、可擴(kuò)展性有限,難以靈活應(yīng)對(duì)云計(jì)算和物聯(lián)網(wǎng)(intelligence?of?thing,iot)等大規(guī)模網(wǎng)絡(luò)場(chǎng)景,運(yùn)維效率不佳,用戶(hù)界面不夠直觀。
3、基于微服務(wù)的網(wǎng)絡(luò)管控采用多個(gè)服務(wù)單元,雖然提高了可擴(kuò)展性,但同時(shí)也增加了復(fù)雜性,且在分布式微服務(wù)架構(gòu)中實(shí)現(xiàn)跨服務(wù)的數(shù)據(jù)一致性和事務(wù)管理往很困難,需要額外的協(xié)調(diào)和同步機(jī)制,此外,微服務(wù)之間的通信還會(huì)增加網(wǎng)絡(luò)開(kāi)銷(xiāo),尤其是服務(wù)數(shù)量較多時(shí)會(huì)導(dǎo)致網(wǎng)絡(luò)延遲和帶寬消耗。
技術(shù)實(shí)現(xiàn)思路
1、為解決前述技術(shù)問(wèn)題,本發(fā)明提供一種ai算力網(wǎng)絡(luò)的智能管控方法,包括以下步驟:
2、s1、對(duì)ai算力網(wǎng)絡(luò)數(shù)據(jù)中心的底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備部署智能管控平臺(tái);
3、s2、智能管控平臺(tái)對(duì)ai算力網(wǎng)絡(luò)數(shù)據(jù)中心的底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備進(jìn)行超可視化監(jiān)控;
4、s3、智能管控平臺(tái)對(duì)所述ai算力網(wǎng)絡(luò)數(shù)據(jù)中心的底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備進(jìn)行實(shí)時(shí)智能管控。
5、進(jìn)一步地,底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備包括服務(wù)器、交換機(jī)。
6、進(jìn)一步地,智能管控平臺(tái)包括:agent采集程序、master控制程序、kafka集群、數(shù)據(jù)庫(kù)集群、北向接口、南向接口、counter-collect程序、拓?fù)浣M件、switch數(shù)據(jù)處理組件;
7、其中,
8、北向接口用于對(duì)接web頁(yè)面、cli以及app程序;
9、agent采集程序包括服務(wù)器agent采集程序、交換機(jī)agent采集程序。
10、進(jìn)一步地,步驟s2包括:
11、s2.1、服務(wù)器agent采集程序采集服務(wù)器的第一資源負(fù)載數(shù)據(jù),并將其發(fā)送至kafka集群,kafka集群對(duì)第一資源負(fù)載數(shù)據(jù)進(jìn)行負(fù)載均衡處理,得到第二資源負(fù)載數(shù)據(jù);
12、s2.2、交換機(jī)agent采集程序采集交換機(jī)的報(bào)文頭、歷史負(fù)載數(shù)據(jù),并將其發(fā)送至counter-collect程序,counter-collect程序解析所述交換機(jī)的報(bào)文頭,并將對(duì)應(yīng)的主機(jī)名稱(chēng)、歷史負(fù)載數(shù)據(jù)發(fā)送至kafka集群;
13、s2.3、kafka集群對(duì)第二資源負(fù)載數(shù)據(jù)、主機(jī)名稱(chēng)、歷史負(fù)載數(shù)據(jù)進(jìn)行分流,平緩存入數(shù)據(jù)庫(kù)集群;
14、s2.4、將master控制程序部署到一個(gè)服務(wù)器中,作為特殊的服務(wù)器節(jié)點(diǎn)即master管控節(jié)點(diǎn),master管控節(jié)點(diǎn)讀取數(shù)據(jù)庫(kù)集群內(nèi)的所述第二資源負(fù)載數(shù)據(jù)、主機(jī)名稱(chēng)、歷史負(fù)載數(shù)據(jù),作為待展示數(shù)據(jù),并通過(guò)web頁(yè)面或者app程序進(jìn)行可視化展示。
15、進(jìn)一步地,數(shù)據(jù)庫(kù)集群包括influxdb數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù)和redis數(shù)據(jù)庫(kù),
16、其中,
17、influxdb數(shù)據(jù)庫(kù)用于存儲(chǔ)第二資源負(fù)載數(shù)據(jù)、歷史負(fù)載數(shù)據(jù),mysql數(shù)據(jù)庫(kù)用于存儲(chǔ)主機(jī)名稱(chēng),redis數(shù)據(jù)庫(kù)用作緩存數(shù)據(jù)庫(kù)、用于保障可視化展示。
18、進(jìn)一步地,步驟s2.1包括:
19、s2.1.1、服務(wù)器agent采集程序啟動(dòng)信息刷新定時(shí)器;
20、s2.1.2、信息刷新定時(shí)器的定時(shí)到指定時(shí)間時(shí),服務(wù)器agent采集程序調(diào)用linux系統(tǒng)的基本庫(kù)、gpu庫(kù)和dpuofed庫(kù)的相關(guān)接口讀取服務(wù)器的基本信息、接口信息、gpu信息,形成第一資源負(fù)載數(shù)據(jù)并通過(guò)mbus通道將其發(fā)送至kafka集群;
21、s2.1.3、kafka集群的生產(chǎn)者模塊讀取服務(wù)器的消息隊(duì)列,將服務(wù)器、交換機(jī)的多種性能指標(biāo)數(shù)據(jù)寫(xiě)入kafka集群的kafka生產(chǎn)者分區(qū)存儲(chǔ)系統(tǒng);
22、s2.1.4、拓?fù)浣M件定時(shí)讀取服務(wù)器、交換機(jī)的節(jié)點(diǎn)信息,刷新連接拓?fù)潢P(guān)系表,然后與規(guī)劃表比較,對(duì)連接拓?fù)潢P(guān)系表中的連接拓?fù)渑c規(guī)劃表中的連接拓?fù)洳灰恢碌?,判定為異常連接,打上錯(cuò)誤標(biāo)記。
23、進(jìn)一步地,步驟s2.2包括:
24、s2.2.1、交換機(jī)啟動(dòng)定時(shí)器,定期將報(bào)文頭、歷史負(fù)載數(shù)據(jù)使用grpc協(xié)議打包,形成采樣報(bào)文并將其上傳到南向接口;
25、s2.2.2、南向接口處理采樣報(bào)文,并將處理后的采樣報(bào)文通過(guò)mbus通道緩存到消息總線(xiàn)組件;
26、s2.2.3、switch數(shù)據(jù)處理組件獲取處理后的采樣報(bào)文,進(jìn)行解包處理,提取出報(bào)文頭、歷史負(fù)載數(shù)據(jù),按數(shù)據(jù)庫(kù)集群的數(shù)據(jù)格式整理,再同步到消息總線(xiàn)組件;
27、s2.2.4、消息總線(xiàn)組件將整理后的報(bào)文頭、歷史負(fù)載數(shù)據(jù)發(fā)送至kafka集群;
28、s2.2.5、拓?fù)浣M件獲取交換機(jī)的lldp連接信息及交換機(jī)、服務(wù)器的基本信息,生成連接拓?fù)?,發(fā)送至kafka集群;
29、s2.2.6、拓?fù)浣M件將連接拓?fù)渑c規(guī)劃拓?fù)浔碇械倪B接拓?fù)浔容^,對(duì)連接拓?fù)渑c規(guī)劃拓?fù)浔碇械倪B接拓?fù)洳灰恢碌?,判定為異常連接,打上錯(cuò)誤標(biāo)記。
30、進(jìn)一步地,步驟s2.4包括:
31、s2.4.1、通過(guò)web頁(yè)面或者app程序選擇需要實(shí)時(shí)展示的待展示數(shù)據(jù),并將指令發(fā)送到master管控節(jié)點(diǎn);
32、s2.4.2、master管控節(jié)點(diǎn)根據(jù)指令從數(shù)據(jù)庫(kù)集群中獲取待展示數(shù)據(jù);
33、s2.4.3、master管控節(jié)點(diǎn)根據(jù)展示界面要求,對(duì)待展示數(shù)據(jù)進(jìn)行數(shù)據(jù)整合;
34、s2.4.4、master管控節(jié)點(diǎn)將待展示數(shù)據(jù)發(fā)送到web頁(yè)面或者app程序,實(shí)現(xiàn)可視化展示;
35、s2.4.5、master管控節(jié)點(diǎn)根據(jù)設(shè)置的時(shí)間間隔要求,重復(fù)執(zhí)行步驟s2.4.2~
36、s2.4.4,實(shí)現(xiàn)待展示數(shù)據(jù)的超可視實(shí)時(shí)動(dòng)態(tài)展示。
37、進(jìn)一步地,步驟s3包括:
38、s3.1、通過(guò)cli輸入管控配置命令;
39、s3.2、通過(guò)cli將管控配置命令發(fā)送至master控制程序;
40、s3.3、master控制程序?qū)芸嘏渲妹钸M(jìn)行整合,確定目標(biāo)底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備及其配置調(diào)整,并基于grpc協(xié)議將整合后的管控配置命令對(duì)應(yīng)的數(shù)據(jù)傳輸至目標(biāo)底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備;
41、s3.4、目標(biāo)底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備對(duì)整合后的管控配置命令對(duì)應(yīng)的數(shù)據(jù)進(jìn)行反序列化,得到配置調(diào)整指令,根據(jù)配置調(diào)整指令進(jìn)行對(duì)應(yīng)的配置調(diào)整。
42、進(jìn)一步地,管控配置命令包括:
43、checknode,用于檢查當(dāng)前網(wǎng)絡(luò)拓?fù)涫欠衽c規(guī)劃一致;
44、cmd,用于對(duì)指定服務(wù)器節(jié)點(diǎn)上的nic執(zhí)行相關(guān)命令;
45、counterstart,用于啟動(dòng)或停止指定服務(wù)器節(jié)點(diǎn)上的nic高精度counter采樣;dcqcn,用于對(duì)指定服務(wù)器節(jié)點(diǎn)執(zhí)行dcqcn的相關(guān)配置;
46、findlink,用于查詢(xún)指定節(jié)點(diǎn)所連接的鄰居節(jié)點(diǎn);
47、gpu_inspect,用于對(duì)指定節(jié)點(diǎn)上的gpu卡信息進(jìn)行采集。
48、與現(xiàn)有技術(shù)相比,本發(fā)明提供的ai算力網(wǎng)絡(luò)的智能管控方法,能管控大量的底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備,可對(duì)接web頁(yè)面、cli以及app程序,在ai大模型訓(xùn)練過(guò)程中能實(shí)時(shí)監(jiān)控、調(diào)度多種底層網(wǎng)絡(luò)基礎(chǔ)設(shè)備,可管控多個(gè)異地?cái)?shù)據(jù)中心、不同規(guī)模的網(wǎng)絡(luò)拓?fù)?,可擴(kuò)展性佳。