午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

域名數(shù)據(jù)分類(lèi)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39526369發(fā)布日期:2024-09-27 17:02閱讀:86來(lái)源:國(guó)知局
域名數(shù)據(jù)分類(lèi)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及dns,尤其涉及一種域名數(shù)據(jù)分類(lèi)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、內(nèi)容分發(fā)網(wǎng)絡(luò)(content?delivery?network,簡(jiǎn)稱(chēng)cdn)將源站內(nèi)容分發(fā)至遍布全球的加速節(jié)點(diǎn),當(dāng)用戶通過(guò)源域名向源域網(wǎng)站發(fā)起網(wǎng)站資源請(qǐng)求時(shí),請(qǐng)求會(huì)被調(diào)節(jié)至離用戶最近的節(jié)點(diǎn),提高用戶的網(wǎng)絡(luò)訪問(wèn)速度;對(duì)于內(nèi)容提供者來(lái)說(shuō),其源域名屬于內(nèi)容提供者的資產(chǎn),然而實(shí)現(xiàn)內(nèi)容分發(fā)的cname域名則由cdn提供商控制解析,不屬于內(nèi)容提供者的資產(chǎn);因此,在進(jìn)行資產(chǎn)測(cè)繪時(shí),需要區(qū)別屬于內(nèi)容提供者的域名和屬于cdn提供商的cdn域名。

2、目前,可采用的cdn域名分類(lèi)技術(shù)主要包括:關(guān)鍵字匹配方法和有監(jiān)督機(jī)器學(xué)習(xí)方法;然而,現(xiàn)有的域名分類(lèi)方依賴于簡(jiǎn)單的規(guī)則匹配或靜態(tài)特征學(xué)習(xí),難以應(yīng)對(duì)復(fù)雜的域名結(jié)構(gòu)和動(dòng)態(tài)變化,導(dǎo)致分類(lèi)準(zhǔn)確性不足,誤分類(lèi)率較高;此外,有監(jiān)督機(jī)器學(xué)習(xí)方法在處理大量域名時(shí),需要大量的計(jì)算資源和時(shí)間,導(dǎo)致域名的分類(lèi)效率低下。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提供一種域名數(shù)據(jù)分類(lèi)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決的現(xiàn)有cdn域名分類(lèi)技術(shù)難以應(yīng)對(duì)復(fù)雜的域名結(jié)構(gòu)和動(dòng)態(tài)變化,以及域名分類(lèi)準(zhǔn)確性不足、分類(lèi)效率低,以及誤分類(lèi)率較高的技術(shù)問(wèn)題。

2、第一方面,本技術(shù)提供一種域名數(shù)據(jù)分類(lèi)方法,包括:

3、獲取域名日志數(shù)據(jù)和cdn域名后綴庫(kù),其中,所述域名日志數(shù)據(jù)包括多個(gè)域名;

4、將所述多個(gè)域名與所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到域名正樣本集和待分類(lèi)域名,所述域名正樣本集用于指示與所述cdn域名后綴庫(kù)匹配一致的域名,所述待分類(lèi)域名用于指示與所述cdn域名后綴庫(kù)匹配不一致的域名;

5、對(duì)所述域名正樣本集中的各個(gè)域名進(jìn)行特征提取,得到域名特征集;

6、根據(jù)所述域名正樣本集和所述域名特征集,訓(xùn)練域名分類(lèi)模型,并通過(guò)所述域名分類(lèi)模型預(yù)測(cè)所述待分類(lèi)域名是否屬于cdn域名;

7、通過(guò)cdn服務(wù)對(duì)所述域名分類(lèi)模型的預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,并根據(jù)驗(yàn)證結(jié)果對(duì)所述cdn域名后綴庫(kù)進(jìn)行更新處理。

8、可選的,所述將所述多個(gè)域名與所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到域名正樣本集和待分類(lèi)域名,包括:

9、根據(jù)所述域名日志數(shù)據(jù),分別生成所述多個(gè)域名的域名解析鏈,所述域名解析鏈用于指示域名系統(tǒng)對(duì)于所述域名的解析路徑;

10、分別將所述多個(gè)域名的域名解析鏈與所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到所述域名正樣本集和所述待分類(lèi)域名。

11、可選的,所述分別對(duì)所述每個(gè)域名的域名解析鏈和所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到所述域名正樣本集和所述待分類(lèi)域名,包括:

12、根據(jù)所述多個(gè)域名的域名解析鏈,分別提取多個(gè)域名解析鏈中記錄的域名信息;

13、分別將所述多個(gè)域名解析鏈的域名信息與所述cdn域名后綴庫(kù)進(jìn)行匹配處理;

14、針對(duì)每一域名解析鏈,若所述域名解析鏈的域名信息中存在至少一個(gè)域名信息與所述cdn域名后綴庫(kù)中的后綴域名匹配一致,則將所述域名解析鏈對(duì)應(yīng)的域名標(biāo)記為正樣本,并添加到所述域名正樣本集中;

15、若所述域名解析鏈的域名信息中不存在域名信息與所述cdn域名后綴庫(kù)中的后綴域名匹配一致,則將所述域名解析鏈對(duì)應(yīng)的域名標(biāo)記為所述待分類(lèi)域名。

16、可選的,所述對(duì)所述域名正樣本集中的各個(gè)域名進(jìn)行特征提取,得到域名特征集,包括:

17、對(duì)所述域名正樣本集進(jìn)行解析處理,得到各個(gè)域名對(duì)應(yīng)的域名解析日志,所述域名解析日志包括ip地址分布特征和cname文本特征;

18、針對(duì)所述域名正樣本集中的每一域名,確定所述域名與所述域名對(duì)應(yīng)的域名解析鏈的相似度;

19、基于所述域名正樣本集中多個(gè)域名的域名解析日志和對(duì)應(yīng)的相似度,生成所述域名特征集。

20、可選的,所述根據(jù)所述域名正樣本集和所述域名特征集,訓(xùn)練域名分類(lèi)模型,并通過(guò)所述域名分類(lèi)模型預(yù)測(cè)所述待分類(lèi)域名是否屬于cdn域名,包括:

21、獲取預(yù)訓(xùn)練分類(lèi)模型;

22、基于所述域名正樣本集和所述域名特征集,對(duì)所述預(yù)訓(xùn)練分類(lèi)模型進(jìn)行訓(xùn)練,得到域名分類(lèi)模型;

23、通過(guò)所述域名分類(lèi)模型對(duì)所述待分類(lèi)域名進(jìn)行預(yù)測(cè)處理,并將預(yù)測(cè)結(jié)果中屬于所述cdn域名的多個(gè)待分類(lèi)域名分別確定為目標(biāo)域名。

24、可選的,所述通過(guò)cdn服務(wù)對(duì)所述域名分類(lèi)模型的預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,包括:

25、確定所述待分類(lèi)域名中的目標(biāo)域名,其中,目標(biāo)域名為被預(yù)測(cè)為cdn域名的域名;

26、通過(guò)所述cdn服務(wù)調(diào)用不同地理位置的多個(gè)公共域名服務(wù)器,針對(duì)任意一個(gè)目標(biāo)域名,控制所述多個(gè)公共域名服務(wù)器對(duì)所述目標(biāo)域名進(jìn)行解析處理,得到多個(gè)解析結(jié)果;

27、若所述多個(gè)解析結(jié)果不一致,則針對(duì)所述待分類(lèi)域名中的每一目標(biāo)域名,確定對(duì)應(yīng)的多個(gè)域名后綴;

28、基于各個(gè)目標(biāo)域名的域名后綴對(duì)所述cdn域名后綴庫(kù)進(jìn)行更新處理,得到新的cdn域名后綴庫(kù)。

29、可選的,所述方法還包括:

30、確定所述域名日志數(shù)據(jù)中不同二級(jí)域名后綴所服務(wù)的二級(jí)域名的數(shù)量;

31、獲取預(yù)設(shè)域名數(shù)量閾值,并針對(duì)每一二級(jí)域名后綴,將所述預(yù)設(shè)域名數(shù)量閾值分別與所述二級(jí)域名后綴對(duì)應(yīng)的二級(jí)域名的數(shù)量進(jìn)行比對(duì)處理;

32、若所述二級(jí)域名的數(shù)量大于所述預(yù)設(shè)域名數(shù)量閾值,則將所述二級(jí)域名后綴添加到所述cdn域名后綴庫(kù)。

33、第二方面,本技術(shù)提供一種域名數(shù)據(jù)分類(lèi)裝置,包括:

34、獲取模塊,用于獲取域名日志數(shù)據(jù)和cdn域名后綴庫(kù),其中,所述域名日志數(shù)據(jù)包括多個(gè)域名。

35、處理模塊,用于將所述多個(gè)域名與所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到域名正樣本集和待分類(lèi)域名,所述域名正樣本集用于指示與所述cdn域名后綴庫(kù)匹配一致的域名,所述待分類(lèi)域名用于指示與所述cdn域名后綴庫(kù)匹配不一致的域名。

36、所述處理模塊,還用于對(duì)所述域名正樣本集中的各個(gè)域名進(jìn)行特征提取,得到域名特征集。

37、所述處理模塊,還用于根據(jù)所述域名正樣本集和所述域名特征集,訓(xùn)練域名分類(lèi)模型,并通過(guò)所述域名分類(lèi)模型預(yù)測(cè)所述待分類(lèi)域名是否屬于cdn域名。

38、所述處理模塊,還用于通過(guò)cdn服務(wù)對(duì)所述域名分類(lèi)模型的預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,并根據(jù)驗(yàn)證結(jié)果對(duì)所述cdn域名后綴庫(kù)進(jìn)行更新處理。

39、可選的,所述處理模塊,還用于根據(jù)所述域名日志數(shù)據(jù),分別生成所述多個(gè)域名的域名解析鏈,所述域名解析鏈用于指示域名系統(tǒng)對(duì)于所述域名的解析路徑。

40、所述處理模塊,還用于分別將所述多個(gè)域名的域名解析鏈與所述cdn域名后綴庫(kù)進(jìn)行匹配處理,得到所述域名正樣本集和所述待分類(lèi)域名。

41、可選的,所述處理模塊,還用于根據(jù)所述多個(gè)域名的域名解析鏈,分別提取多個(gè)域名解析鏈中記錄的域名信息。

42、所述處理模塊,還用于分別將所述多個(gè)域名解析鏈的域名信息與所述cdn域名后綴庫(kù)進(jìn)行匹配處理。

43、針對(duì)每一域名解析鏈,若所述域名解析鏈的域名信息中存在至少一個(gè)域名信息與所述cdn域名后綴庫(kù)中的后綴域名匹配一致,則所述處理模塊,還用于將所述域名解析鏈對(duì)應(yīng)的域名標(biāo)記為正樣本,并添加到所述域名正樣本集中。

44、若所述域名解析鏈的域名信息中不存在域名信息與所述cdn域名后綴庫(kù)中的后綴域名匹配一致,則所述處理模塊,還用于將所述域名解析鏈對(duì)應(yīng)的域名標(biāo)記為所述待分類(lèi)域名。

45、可選的,所述處理模塊,還用于對(duì)所述域名正樣本集進(jìn)行解析處理,得到各個(gè)域名對(duì)應(yīng)的域名解析日志,所述域名解析日志包括ip地址分布特征和cname文本特征。

46、所述域名數(shù)據(jù)分類(lèi)裝置還包括:確定模塊。

47、所述確定模塊,用于針對(duì)所述域名正樣本集中的每一域名,確定所述域名與所述域名對(duì)應(yīng)的域名解析鏈的相似度。

48、所述處理模塊,還用于基于所述域名正樣本集中多個(gè)域名的域名解析日志和對(duì)應(yīng)的相似度,生成所述域名特征集。

49、可選的,所述獲取模塊,還用于獲取預(yù)訓(xùn)練分類(lèi)模型。

50、所述處理模塊,還用于基于所述域名正樣本集和所述域名特征集,對(duì)所述預(yù)訓(xùn)練分類(lèi)模型進(jìn)行訓(xùn)練,得到域名分類(lèi)模型。

51、所述處理模塊,還用于通過(guò)所述域名分類(lèi)模型對(duì)所述待分類(lèi)域名進(jìn)行預(yù)測(cè)處理。

52、所述確定模塊,還用于將預(yù)測(cè)結(jié)果中屬于所述cdn域名的多個(gè)待分類(lèi)域名分別確定為目標(biāo)域名。

53、可選的,所述確定模塊,還用于確定所述待分類(lèi)域名中的目標(biāo)域名,其中,目標(biāo)域名為被預(yù)測(cè)為cdn域名的域名。

54、所述處理模塊,還用于通過(guò)所述cdn服務(wù)調(diào)用不同地理位置的多個(gè)公共域名服務(wù)器,針對(duì)任意一個(gè)目標(biāo)域名,控制所述多個(gè)公共域名服務(wù)器對(duì)所述目標(biāo)域名進(jìn)行解析處理,得到多個(gè)解析結(jié)果。

55、若所述多個(gè)解析結(jié)果不一致,則所述確定模塊,還用于針對(duì)所述待分類(lèi)域名中的每一目標(biāo)域名,確定對(duì)應(yīng)的多個(gè)域名后綴。

56、所述處理模塊,還用于基于各個(gè)目標(biāo)域名的域名后綴對(duì)所述cdn域名后綴庫(kù)進(jìn)行更新處理,得到新的cdn域名后綴庫(kù)。

57、可選的,所述確定模塊,還用于確定所述域名日志數(shù)據(jù)中不同二級(jí)域名后綴所服務(wù)的二級(jí)域名的數(shù)量。

58、所述獲取模塊,還用于獲取預(yù)設(shè)域名數(shù)量閾值。

59、所述處理模塊,還用于針對(duì)每一二級(jí)域名后綴,將所述預(yù)設(shè)域名數(shù)量閾值分別與所述二級(jí)域名后綴對(duì)應(yīng)的二級(jí)域名的數(shù)量進(jìn)行比對(duì)處理。

60、若所述二級(jí)域名的數(shù)量大于所述預(yù)設(shè)域名數(shù)量閾值,則所述處理模塊,還用于將所述二級(jí)域名后綴添加到所述cdn域名后綴庫(kù)。

61、第三方面,本技術(shù)提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲(chǔ)器;

62、所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;

63、所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)如上述第一方面以及第一方面各種可能的實(shí)現(xiàn)方式所述的域名數(shù)據(jù)分類(lèi)方法。

64、第四方面,本技術(shù)提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上述第一方面以及第一方面各種可能的實(shí)現(xiàn)方式所述的域名數(shù)據(jù)分類(lèi)方法。

65、第五方面,本技術(shù)提供一種程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的域名數(shù)據(jù)分類(lèi)方法。

66、本技術(shù)提供的域名數(shù)據(jù)分類(lèi)方法,通過(guò)獲取域名日志數(shù)據(jù)和cdn域名后綴庫(kù),基于域名日志數(shù)據(jù),分別生成多個(gè)域名的域名解析鏈,并分別將多個(gè)域名的域名解析鏈與cdn域名后綴庫(kù)進(jìn)行匹配處理,得到域名正樣本集和待分類(lèi)域名;對(duì)域名正樣本集進(jìn)行解析處理,得到各個(gè)域名對(duì)應(yīng)的域名解析日志,針對(duì)該域名正樣本集中的每一域名,確定域名與域名對(duì)應(yīng)的域名解析鏈的相似度,并基于域名正樣本集中多個(gè)域名的域名解析日志和對(duì)應(yīng)的相似度,生成域名特征集;獲取預(yù)訓(xùn)練分類(lèi)模型,并基于域名正樣本集和域名特征集,對(duì)預(yù)訓(xùn)練分類(lèi)模型進(jìn)行訓(xùn)練,得到域名分類(lèi)模型;通過(guò)域名分類(lèi)模型對(duì)待分類(lèi)域名進(jìn)行預(yù)測(cè)處理,并將預(yù)測(cè)結(jié)果中屬于cdn域名的多個(gè)待分類(lèi)域名分別確定為目標(biāo)域名;通過(guò)cdn服務(wù)對(duì)多個(gè)目標(biāo)域名進(jìn)行驗(yàn)證,并根據(jù)驗(yàn)證結(jié)果對(duì)cdn域名后綴庫(kù)進(jìn)行更新處理。該方法實(shí)現(xiàn)了對(duì)域名數(shù)據(jù)的高效分類(lèi),避免了人工收集域名數(shù)據(jù)的局限性,也實(shí)現(xiàn)了對(duì)cdn域名的準(zhǔn)確識(shí)別,并通過(guò)動(dòng)態(tài)更新cdn域名后綴庫(kù),提升域名分類(lèi)的準(zhǔn)確性和適應(yīng)性,增強(qiáng)了系統(tǒng)對(duì)復(fù)雜和動(dòng)態(tài)變化的互聯(lián)網(wǎng)域名環(huán)境的適應(yīng)能力。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1