午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

用于機(jī)器學(xué)習(xí)模型的引導(dǎo)源收集的制作方法

文檔序號(hào):39727781發(fā)布日期:2024-10-22 13:29閱讀:3來(lái)源:國(guó)知局
用于機(jī)器學(xué)習(xí)模型的引導(dǎo)源收集的制作方法


背景技術(shù):

1、無(wú)論是為了訓(xùn)練機(jī)器學(xué)習(xí)模型還是為了在未標(biāo)記的數(shù)據(jù)上執(zhí)行已訓(xùn)練的機(jī)器學(xué)習(xí)模型,機(jī)器學(xué)習(xí)(ml)應(yīng)用都要處理大量的輸入數(shù)據(jù)。這種輸入數(shù)據(jù)能夠通過(guò)多種方法來(lái)獲得,這些方法通常涉及手動(dòng)操縱,諸如手動(dòng)標(biāo)記和過(guò)濾。

2、web爬蟲(chóng)系統(tǒng)性地瀏覽萬(wàn)維網(wǎng)上的數(shù)據(jù),從html頁(yè)面和其他web內(nèi)容(統(tǒng)稱為“內(nèi)容”)收集龐大的數(shù)據(jù)集,并且將這些數(shù)據(jù)集組織成web索引,以便為服務(wù)(諸如搜索引擎)提供高效的數(shù)據(jù)訪問(wèn)。然而,此類web爬蟲(chóng)通常采用瀏覽整個(gè)web的暴力方法來(lái)收集用于一般web搜索的輸入數(shù)據(jù)并且將其編索引。因此,來(lái)自現(xiàn)有web爬蟲(chóng)的輸入數(shù)據(jù)可能會(huì)包括與特定ml應(yīng)用無(wú)關(guān)的數(shù)據(jù),并且還缺少關(guān)于各個(gè)頁(yè)面和內(nèi)容之間的關(guān)系的上下文信息。


技術(shù)實(shí)現(xiàn)思路

1、所描述的技術(shù)提供從網(wǎng)絡(luò)圖收集數(shù)據(jù),其中所收集的數(shù)據(jù)對(duì)于在查詢域上訓(xùn)練機(jī)器學(xué)習(xí)模型有用。與查詢域?qū)?yīng)的域特定模板被接收,域特定模板定義一個(gè)或多個(gè)分類器以引導(dǎo)從網(wǎng)絡(luò)圖收集與查詢域相關(guān)的內(nèi)容。收集起點(diǎn)是基于域特定模板的一個(gè)或多個(gè)分類器來(lái)分析的,以標(biāo)識(shí)內(nèi)容的一個(gè)或多個(gè)相關(guān)實(shí)例。內(nèi)容的所標(biāo)識(shí)的一個(gè)或多個(gè)相關(guān)實(shí)例被添加至上下文協(xié)議包。內(nèi)容的每個(gè)所標(biāo)識(shí)的相關(guān)實(shí)例是基于域特定模板的一個(gè)或多個(gè)分類器來(lái)分析的,以標(biāo)識(shí)內(nèi)容的一個(gè)或多個(gè)附加相關(guān)實(shí)例。內(nèi)容的所標(biāo)識(shí)的一個(gè)或多個(gè)附加相關(guān)實(shí)例被添加至上下文協(xié)議包。

2、提供本
技術(shù)實(shí)現(xiàn)要素:
是為了以簡(jiǎn)化形式介紹對(duì)在以下具體實(shí)施方式中進(jìn)一步描述的構(gòu)思的選擇。本發(fā)明內(nèi)容既不旨在標(biāo)識(shí)所要求的主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的主題的范圍。

3、本文還描述和列舉了其他實(shí)施方式。



技術(shù)特征:

1.一種從網(wǎng)絡(luò)圖收集數(shù)據(jù)的方法,其中所收集的所述數(shù)據(jù)對(duì)于在查詢域上訓(xùn)練機(jī)器學(xué)習(xí)模型有用,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其中分析所述收集起點(diǎn)的所述操作包括:

3.根據(jù)權(quán)利要求1所述的方法,其中分析所述內(nèi)容的每個(gè)所標(biāo)識(shí)的相關(guān)實(shí)例的所述操作包括:

4.根據(jù)權(quán)利要求1所述的方法,還包括:

5.根據(jù)權(quán)利要求1所述的方法,還包括:

6.根據(jù)權(quán)利要求1所述的方法,還包括:

7.根據(jù)權(quán)利要求1所述的方法,還包括:

8.一種用于從網(wǎng)絡(luò)圖收集數(shù)據(jù)的系統(tǒng),其中所收集的所述數(shù)據(jù)對(duì)于在查詢域上訓(xùn)練機(jī)器學(xué)習(xí)模型有用,所述系統(tǒng)包括:

9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述收集器被配置為基于所述域特定模板的所述一個(gè)或多個(gè)分類器來(lái)分析所述收集起點(diǎn),以標(biāo)識(shí)所述內(nèi)容的一個(gè)或多個(gè)實(shí)例,并且針對(duì)一個(gè)或多個(gè)相關(guān)性條件評(píng)估所述內(nèi)容的每個(gè)所標(biāo)識(shí)的實(shí)例,以標(biāo)識(shí)所述內(nèi)容的所述一個(gè)或多個(gè)相關(guān)實(shí)例。

10.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述收集器被配置為基于所述域特定模板的所述一個(gè)或多個(gè)分類器來(lái)分析所述內(nèi)容的每個(gè)所標(biāo)識(shí)的相關(guān)實(shí)例,以標(biāo)識(shí)所述內(nèi)容的一個(gè)或多個(gè)附加實(shí)例,并且針對(duì)一個(gè)或多個(gè)相關(guān)性條件評(píng)估所述內(nèi)容的每個(gè)所標(biāo)識(shí)的附加實(shí)例,以標(biāo)識(shí)所述內(nèi)容的所述一個(gè)或多個(gè)附加相關(guān)實(shí)例。

11.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述收集器還被配置為針對(duì)所述內(nèi)容的一個(gè)或多個(gè)附加實(shí)例的多個(gè)分析和添加階段進(jìn)行迭代,以標(biāo)識(shí)所述內(nèi)容的一個(gè)或多個(gè)附加相關(guān)實(shí)例的附加集合,并且將它們添加至所述上下文協(xié)議包,并且基于確定在分析和添加階段標(biāo)識(shí)的所述內(nèi)容的所述一個(gè)或多個(gè)附加實(shí)例未能滿足一個(gè)或多個(gè)相關(guān)性條件來(lái)終止所述迭代。

12.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括:

13.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括:

14.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括:

15.一種或多種體現(xiàn)有指令的有形處理器可讀存儲(chǔ)介質(zhì),所述指令用于在計(jì)算設(shè)備的一個(gè)或多個(gè)處理器和電路上執(zhí)行用于從網(wǎng)絡(luò)圖收集數(shù)據(jù)的過(guò)程,其中所收集的所述數(shù)據(jù)對(duì)于在查詢域上訓(xùn)練機(jī)器學(xué)習(xí)模型有用,所述過(guò)程包括:


技術(shù)總結(jié)
從網(wǎng)絡(luò)圖收集數(shù)據(jù),其中所收集的數(shù)據(jù)對(duì)于在查詢域上訓(xùn)練機(jī)器學(xué)習(xí)模型有用。與查詢域?qū)?yīng)的域特定模板被接收,域特定模板定義一個(gè)或多個(gè)分類器以引導(dǎo)從網(wǎng)絡(luò)圖收集與查詢域相關(guān)的內(nèi)容。收集起點(diǎn)是基于域特定模板的一個(gè)或多個(gè)分類器來(lái)分析的,以標(biāo)識(shí)內(nèi)容的一個(gè)或多個(gè)相關(guān)實(shí)例。內(nèi)容的所標(biāo)識(shí)的一個(gè)或多個(gè)相關(guān)實(shí)例被添加至上下文協(xié)議包。內(nèi)容的每個(gè)所標(biāo)識(shí)的相關(guān)實(shí)例是基于域特定模板的一個(gè)或多個(gè)分類器來(lái)分析的,以標(biāo)識(shí)內(nèi)容的一個(gè)或多個(gè)附加相關(guān)實(shí)例。內(nèi)容的所標(biāo)識(shí)的一個(gè)或多個(gè)附加相關(guān)實(shí)例被添加至上下文協(xié)議包。

技術(shù)研發(fā)人員:張羽,P·沙瑪,M·舒克拉,G·A·奧爾洛夫
受保護(hù)的技術(shù)使用者:微軟技術(shù)許可有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1