本發(fā)明涉及大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是一種對(duì)URL(Uniform Resource Locator,統(tǒng)一資源定位符)進(jìn)行分類的方法和裝置。
背景技術(shù):
目前,基于DPI(Deep Packet Inspection,深度包檢測(cè))數(shù)據(jù)分析用戶的上網(wǎng)行為主要是通過URL地址庫(kù)匹配用戶訪問的網(wǎng)址,然后對(duì)用戶打標(biāo)簽來(lái)實(shí)現(xiàn)。
URL地址庫(kù)一般采用網(wǎng)頁(yè)內(nèi)容提取和識(shí)別技術(shù)來(lái)對(duì)URL進(jìn)行分類來(lái)構(gòu)建,但是,本發(fā)明的發(fā)明人發(fā)現(xiàn),采用網(wǎng)頁(yè)內(nèi)容提取和識(shí)別技術(shù)對(duì)URL進(jìn)行分類的方式具有如下缺點(diǎn):
一是由于需要針對(duì)不同的網(wǎng)站設(shè)計(jì)個(gè)性化算法,因此,對(duì)URL進(jìn)行分類時(shí)的工作量大,效率低;
二是在不同的網(wǎng)站改版后,需要通過人工辨別或重新識(shí)別來(lái)重新對(duì)URL進(jìn)行分類,URL地址庫(kù)無(wú)法自動(dòng)更新。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例所要解決的其中一個(gè)技術(shù)問題是:解決URL分類效率低的問題。
根據(jù)本發(fā)明的一方面,提供一種對(duì)URL進(jìn)行分類的方法,包括:獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數(shù),所述用戶特征信息包括基于用戶歷史上網(wǎng)行為確定的用戶標(biāo)簽和各用戶標(biāo)簽的權(quán)重;根據(jù)獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息,所述URL特征信息包括URL的 網(wǎng)頁(yè)類型和各網(wǎng)頁(yè)類型的權(quán)重;根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類。
在一個(gè)實(shí)施例中,所述根據(jù)獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息包括:根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問該URL的每個(gè)用戶j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問該URL的用戶總數(shù),xjn為用戶j的用戶標(biāo)簽,kjn為用戶標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶j訪問該URL的訪問次數(shù),P為所有用戶訪問該URL的總訪問次數(shù);將各用戶j的標(biāo)簽向量uj中相同用戶標(biāo)簽的權(quán)重累加,并按累加后的用戶標(biāo)簽的系數(shù)的大小對(duì)用戶標(biāo)簽進(jìn)行排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶標(biāo)簽,用戶標(biāo)簽xt的系數(shù)ct為S個(gè)用戶的標(biāo)簽向量uj中與xt相同的用戶標(biāo)簽的權(quán)重之和;從URL的標(biāo)簽向量y中選擇用戶標(biāo)簽的系數(shù)最大的前m個(gè)用戶標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類型,并將作為網(wǎng)頁(yè)類型xi的權(quán)重。
在一個(gè)實(shí)施例中,所述根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類包括:選擇各網(wǎng)頁(yè)類型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類型作為所述URL的網(wǎng)頁(yè)類型,以對(duì)所述URL進(jìn)行分類。
在一個(gè)實(shí)施例中,所述方法還包括:從采集的DPI數(shù)據(jù)中篩選出總訪問次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。
在一個(gè)實(shí)施例中,所述方法還包括:采集所述URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)所述URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別所述URL的網(wǎng)頁(yè)類型,以對(duì)所述URL進(jìn)行分類;將分類結(jié)果與根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類的分類結(jié)果進(jìn)行比較;根據(jù)比較結(jié)果調(diào)整所述預(yù)設(shè)閾值的大小。
根據(jù)本發(fā)明的另一方面,提供一種對(duì)URL進(jìn)行分類的裝置,包括:用戶特征信息獲取模塊,用于獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數(shù),所述用戶特征信息包括基于用戶歷史上網(wǎng)行為確定的用戶標(biāo)簽和各用戶標(biāo)簽的權(quán)重;URL特征信息確定 模塊,用于根據(jù)獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息,所述URL特征信息包括網(wǎng)頁(yè)類型和各網(wǎng)頁(yè)類型的權(quán)重;URL分類模塊,用于根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類。
在一個(gè)實(shí)施例中,所述URL特征信息確定模塊包括:用戶標(biāo)簽計(jì)算單元,用于根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問該URL的每個(gè)用戶j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問該URL的用戶總數(shù),xjn為用戶j的用戶標(biāo)簽,kjn為用戶標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶j訪問該URL的訪問次數(shù),P為所有用戶訪問該URL的總訪問次數(shù);URL標(biāo)簽計(jì)算單元,用于將各用戶j的標(biāo)簽向量uj中相同用戶標(biāo)簽的權(quán)重累加,并按累加后的用戶標(biāo)簽的系數(shù)的大小對(duì)用戶標(biāo)簽進(jìn)行排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶標(biāo)簽,用戶標(biāo)簽xt的系數(shù)ct為S個(gè)用戶的標(biāo)簽向量uj中與xt相同的用戶標(biāo)簽的權(quán)重之和;URL特征信息確定單元,用于從URL的標(biāo)簽向量y中選擇用戶標(biāo)簽的系數(shù)最大的前m個(gè)用戶標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類型,并將作為網(wǎng)頁(yè)類型xi的權(quán)重。
在一個(gè)實(shí)施例中,所述URL分類模塊,具體用于選擇各網(wǎng)頁(yè)類型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類型作為所述URL的網(wǎng)頁(yè)類型,以對(duì)所述URL進(jìn)行分類。
在一個(gè)實(shí)施例中,所述裝置還包括:DPI數(shù)據(jù)分析模塊,用于從采集的DPI數(shù)據(jù)中篩選出總訪問次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。
在一個(gè)實(shí)施例中,所述裝置還包括:網(wǎng)頁(yè)內(nèi)容采集模塊,用于采集所述URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)所述URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別URL的網(wǎng)頁(yè)類型,以對(duì)所述URL進(jìn)行分類;比較模塊,用于將分類結(jié)果與根據(jù)所述URL特征信息對(duì)所述URL進(jìn)行分類的分類結(jié)果進(jìn)行比較;調(diào)整模塊,用于根據(jù)比較結(jié)果調(diào)整所述預(yù)設(shè)閾值的大小。
本發(fā)明通過獲取訪問URL的各用戶的用戶特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類。這 種分類方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類型發(fā)生變化時(shí),由于可以根據(jù)訪問該URL的用戶特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類,自動(dòng)更新URL地址庫(kù)。
下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明對(duì)URL進(jìn)行分類的方法一個(gè)實(shí)施例的流程示意圖;
圖2是本發(fā)明對(duì)URL進(jìn)行分類的方法一個(gè)例子的示意圖;
圖3是本發(fā)明對(duì)URL進(jìn)行分類的裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
圖4是本發(fā)明對(duì)URL進(jìn)行分類的裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
圖5是本發(fā)明對(duì)URL進(jìn)行分類的裝置又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
圖6是本發(fā)明對(duì)URL進(jìn)行分類的裝置再一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
除非另外具體說(shuō)明,否則在這些實(shí)施例中闡述的部件和步驟的相對(duì)布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。
同時(shí),應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個(gè)部分的尺寸并不是按照實(shí)際的比例關(guān)系繪制的。
對(duì)于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為授權(quán)說(shuō)明書的一部分。
在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實(shí)施例的其它示例可以具有不同的值。
應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步討論。
本發(fā)明的發(fā)明人發(fā)現(xiàn),在大數(shù)據(jù)統(tǒng)計(jì)的基礎(chǔ)上,當(dāng)訪問一個(gè)URL網(wǎng)址的用戶量較大時(shí),URL網(wǎng)頁(yè)的內(nèi)容體現(xiàn)了訪問用戶的共同需求,而不是單個(gè)用戶的特殊需求。因此,提出根據(jù)訪問URL的各用戶的用戶特征信息反向標(biāo)記URL的特征信息。本發(fā)明可用于電信DPI用戶的行為分析,能夠快速對(duì)訪問量大的URL進(jìn)行分類,識(shí)別新增URL的類別,在現(xiàn)有人工審核、基于網(wǎng)頁(yè)分析的URL特征識(shí)別基礎(chǔ)上,能夠進(jìn)一步提高URL分類的質(zhì)量和數(shù)量。
圖1是本發(fā)明對(duì)URL進(jìn)行分類的方法一個(gè)實(shí)施例的流程示意圖。如圖1所示,該方法包括:
步驟102,獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數(shù),其中,用戶特征信息包括基于用戶歷史上網(wǎng)行為確定的用戶標(biāo)簽和各用戶標(biāo)簽的權(quán)重。
這里,根據(jù)用戶的歷史上網(wǎng)行為可以得到各用戶的用戶特征信息,例如,用戶經(jīng)常訪問財(cái)經(jīng)網(wǎng)站和體育網(wǎng)站,則可以給該用戶打上兩個(gè)用戶標(biāo)簽,一個(gè)是財(cái)經(jīng)網(wǎng)站,一個(gè)是體育網(wǎng)站。根據(jù)用戶訪問這兩個(gè)網(wǎng)站的次數(shù)可以得到這兩個(gè)用戶標(biāo)簽的權(quán)重,從而得到用戶特征信息。例如,用戶特征信息可以包括如下內(nèi)容:用戶標(biāo)簽為財(cái)經(jīng)網(wǎng)站和體育網(wǎng)站,財(cái)經(jīng)網(wǎng)站的權(quán)重為20%,體育網(wǎng)站的權(quán)重為80%。
另外,可以對(duì)用戶特征信息中的用戶標(biāo)簽的數(shù)量進(jìn)行調(diào)整,例如減少用戶標(biāo)簽的數(shù)量,從而調(diào)整最終URL特征信息中的網(wǎng)頁(yè)類型的數(shù)量。
步驟104,根據(jù)獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息,該URL特征信息包括URL的網(wǎng)頁(yè)類型和各網(wǎng)頁(yè)類型的權(quán)重。
各用戶的用戶特征信息可以反應(yīng)URL特征信息,后文將給出示例性的詳細(xì)說(shuō)明。
步驟106,根據(jù)URL特征信息對(duì)該URL進(jìn)行分類。
在得到URL的特征信息后,即得到了URL的網(wǎng)頁(yè)類型和每個(gè)網(wǎng)頁(yè)類型的權(quán)重,在一個(gè)實(shí)施例中,可以選擇各網(wǎng)頁(yè)類型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類型作為URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類。
本實(shí)施例通過獲取訪問URL的各用戶的用戶特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類。這種分類方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類型發(fā)生變化時(shí),由于可以根據(jù)訪問該URL的用戶特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類,自動(dòng)更新URL地址庫(kù)。
作為一個(gè)具體實(shí)施例,圖1所示步驟104可以通過如下方式來(lái)實(shí)現(xiàn):
首先,根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問該URL的每個(gè)用戶j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問該URL的用戶總數(shù),xjn為用戶j的用戶標(biāo)簽,kjn為用戶標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶j訪問該URL的訪問次數(shù),P為所有用戶訪問該URL的總訪問次數(shù)。
然后,將各用戶j的標(biāo)簽向量uj中相同用戶標(biāo)簽的權(quán)重累加,并按累加后的用戶標(biāo)簽的系數(shù)的大小對(duì)用戶標(biāo)簽進(jìn)行排序,例如升序或降序排列,從而得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中如果各用戶的用戶標(biāo)簽均不相同,則xt為用戶標(biāo)簽,用戶標(biāo)簽xt的系數(shù)ct為S個(gè)用戶的標(biāo)簽向量uj中與xt相同的用戶標(biāo)簽的權(quán)重之和。具體地,當(dāng)xt=xjh時(shí),ct可以表示為以下公式:其中kjh∈(kj1,kj2,…kjn),xjh∈(xj1,xj2,…xjn)。
之后,從URL的標(biāo)簽向量y中選擇用戶標(biāo)簽的系數(shù)最大的前m個(gè)用戶標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類型,并將作為網(wǎng)頁(yè)類型xi的權(quán)重。即,分別為網(wǎng)頁(yè)類型x1,x2,…xm的權(quán)重。
本實(shí)施例中,通過用戶特征信息和各用戶訪問該URL的訪問次數(shù)可以得到各用戶的標(biāo)簽向量,根據(jù)各用戶的標(biāo)簽向量可以得到URL的標(biāo)簽向量,從而得到URL的特征信息。
應(yīng)理解,雖然上述實(shí)施例通過標(biāo)簽向量的方式實(shí)現(xiàn)了圖1所示步驟104,然而這并非是限制性的,本領(lǐng)域技術(shù)人員可以采用其他方式根據(jù)各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息。
下面結(jié)合圖2列舉一個(gè)例子對(duì)本發(fā)明對(duì)URL進(jìn)行分類的方法進(jìn)行詳細(xì)說(shuō)明:
如圖2所示,訪問URL:http://x.x.com的總訪問次數(shù)為P=10次。其中,用戶A訪問URL的訪問次數(shù)為p1=2次,用戶B訪問URL的訪問次數(shù)為p2=8次。
用戶A的用戶特征信息為:新聞,權(quán)重為0.6;購(gòu)物,權(quán)重為0.2;體育,權(quán)重為0.1。
用戶A的標(biāo)簽向量為u1=(x1×k11,x2×k12,…x1n×k1n)×p1/P=(新聞×0.6,購(gòu)物×0.2,體育×0.1)×2/10=(新聞×0.12,購(gòu)物×0.04,體育×0.02)。
用戶B的用戶特征信息為:購(gòu)物,權(quán)重為0.5;嬰幼,權(quán)重為0.3;視頻,權(quán)重為0.1。
用戶B的標(biāo)簽向量為u2=(x1×k21,x2×k22,…x2n×k2n)×p2/P=(購(gòu)物×0.5,嬰幼×0.3,視頻×0.1)×8/10=(購(gòu)物×0.4,嬰幼×0.24,視頻×0.08)。
將用戶A的標(biāo)簽向量為u1和用戶B的標(biāo)簽向量為u2中相同網(wǎng)頁(yè)類型的權(quán)重相加(即購(gòu)物的權(quán)重0.04+0.4相加)得到URL:http://x.x.com的標(biāo)簽向量為:y=(x1×m1,x2×m2,…,xt×mt) =(新聞×0.12,購(gòu)物×0.44,體育×0.02,嬰幼×0.24,視頻×0.08)。
選擇網(wǎng)頁(yè)類型最大的2個(gè),即購(gòu)物和嬰幼作為URL的網(wǎng)頁(yè)類型,或者僅選擇最大的一個(gè),即購(gòu)物作為URL的網(wǎng)頁(yè)類型,以對(duì)該URL進(jìn)行分類。
應(yīng)理解,圖2示意性地示出了兩個(gè)用戶訪問URL的例子,在實(shí)際應(yīng)用中,本發(fā)明提供的對(duì)URL進(jìn)行分類的方法尤其適用于訪問次數(shù)多的URL,在一個(gè)實(shí)施例中,可以從采集的DPI數(shù)據(jù)中篩選出總訪問次數(shù)大于預(yù)設(shè)閾值的URL作為要進(jìn)行分類的URL,從而增加分類的準(zhǔn)確性。例如,計(jì)算某一段時(shí)間內(nèi)DPI數(shù)據(jù)中各URL的訪問次數(shù),排序篩選出總訪問次數(shù)大于預(yù)設(shè)閾值的URL作為要進(jìn)行分類的URL。
另外,為了驗(yàn)證分類結(jié)果的正確性,在一個(gè)實(shí)施例中,對(duì)URL進(jìn)行分類的方法還可以包括如下步驟:
步驟S1,采集URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)該URL的網(wǎng)頁(yè)內(nèi)容和特定算法對(duì)URL進(jìn)行分類。
例如,通過人工審核或網(wǎng)頁(yè)爬取的方式采集URL的網(wǎng)頁(yè)內(nèi)容,根據(jù)該URL的網(wǎng)頁(yè)內(nèi)容,通過文本挖掘算法識(shí)別該URL的網(wǎng)頁(yè)類型,從而對(duì)URL進(jìn)行分類。這里,對(duì)不同的URL需要對(duì)文本挖掘算法進(jìn)行相應(yīng)的調(diào)整。
步驟S2,將步驟S1得到的分類結(jié)果與根據(jù)URL特征信息對(duì)該URL進(jìn)行分類的分類結(jié)果進(jìn)行比較。
步驟S3,根據(jù)比較結(jié)果調(diào)整預(yù)設(shè)閾值的大小。
如果兩個(gè)結(jié)果不一致,則可以將預(yù)設(shè)閾值的調(diào)整為更大的值,從而使得根據(jù)URL特征信息對(duì)URL進(jìn)行分類的分類結(jié)果更加準(zhǔn)確。如果兩個(gè)結(jié)果一致,則無(wú)需調(diào)整預(yù)設(shè)閾值。
本實(shí)施例通過對(duì)兩種分類結(jié)果的比較,可以驗(yàn)證本發(fā)明對(duì)URL分類的方法的正確性,根據(jù)驗(yàn)證結(jié)果可以適時(shí)地調(diào)整預(yù)設(shè)閾值的大小,從而進(jìn)一步提高分類結(jié)果的可靠性。
本發(fā)明提供的對(duì)URL進(jìn)行分類的方法同樣適用于對(duì)APP地址分類。
本說(shuō)明書中各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō) 明的都是與其它實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同或相似的部分相互參見即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說(shuō)明即可。
圖3是本發(fā)明對(duì)URL進(jìn)行分類的裝置一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖3所示,該裝置包括:
用戶特征信息獲取模塊301,用于獲取訪問URL的各用戶的用戶特征信息和各用戶訪問該URL的訪問次數(shù),其中,用戶特征信息包括基于用戶歷史上網(wǎng)行為確定的用戶標(biāo)簽和各用戶標(biāo)簽的權(quán)重;
URL特征信息確定模塊302,用于根據(jù)獲取到的各用戶的用戶特征信息和各用戶訪問URL的訪問次數(shù)確定URL特征信息,URL特征信息包括網(wǎng)頁(yè)類型和各網(wǎng)頁(yè)類型的權(quán)重;
URL分類模塊303,用于根據(jù)URL特征信息對(duì)URL進(jìn)行分類。
示例性地,URL分類模塊303具體用于選擇各網(wǎng)頁(yè)類型的權(quán)重中最大的一個(gè)或多個(gè)網(wǎng)頁(yè)類型作為URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類。
本實(shí)施例通過獲取訪問URL的各用戶的用戶特征信息可以確定URL的特征信息,從而可以確定URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類。這種分類方式一方面,無(wú)需針對(duì)不同的URL網(wǎng)站設(shè)計(jì)個(gè)性化算法,分類效率高;另一方面,在不同的URL網(wǎng)站改版后,即網(wǎng)頁(yè)類型發(fā)生變化時(shí),由于可以根據(jù)訪問該URL的用戶特征信息得到URL的特征信息,從而可以及時(shí)對(duì)URL重新進(jìn)行分類,自動(dòng)更新URL地址庫(kù)。
圖4是本發(fā)明對(duì)URL進(jìn)行分類的裝置另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖4所示,本實(shí)施例中的URL特征信息確定模塊302可以包括:
用戶標(biāo)簽計(jì)算單元311,用于根據(jù)uj=(xj1×kj1,xj2×kj2,…xjn×kjn)×pj/P計(jì)算訪問該URL的每個(gè)用戶j的標(biāo)簽向量uj,其中j為正整數(shù),1≤j≤S,S為訪問該URL的用戶總數(shù),xjn為用戶j的用戶標(biāo)簽,kjn為用戶標(biāo)簽xjn的權(quán)重,jn為正整數(shù),pj為用戶j訪問該URL的訪問次數(shù),P為所有用戶訪問該URL的總訪問次數(shù);
URL標(biāo)簽計(jì)算單元321,用于將各用戶j的標(biāo)簽向量uj中相同用戶標(biāo)簽的權(quán)重累加,并按累加后的用戶標(biāo)簽的系數(shù)的大小對(duì)用戶標(biāo)簽進(jìn)行 排序,得到該URL的標(biāo)簽向量y=(x1×c1,x2×c2,…,xt×ct),其中xt為用戶標(biāo)簽,用戶標(biāo)簽xt的系數(shù)ct為S個(gè)用戶的標(biāo)簽向量uj中與xt相同的用戶標(biāo)簽的權(quán)重之和;
URL特征信息確定單元331,用于從URL的標(biāo)簽向量y中選擇用戶標(biāo)簽的系數(shù)最大的前m個(gè)用戶標(biāo)簽x1,x2,…xm作為該URL的網(wǎng)頁(yè)類型,并將作為網(wǎng)頁(yè)類型xi的權(quán)重。
本實(shí)施例中,通過用戶特征信息和各用戶訪問該URL的訪問次數(shù)可以得到各用戶的標(biāo)簽向量,根據(jù)各用戶的標(biāo)簽向量可以得到URL的標(biāo)簽向量,從而得到URL的特征信息。
圖5是本發(fā)明對(duì)URL進(jìn)行分類的裝置又一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖5所示,為了提高分類的準(zhǔn)確,該裝置還可以包括:
DPI數(shù)據(jù)分析模塊501,用于從采集的DPI數(shù)據(jù)中篩選出總訪問次數(shù)大于預(yù)設(shè)閾值的URL作為所述URL。
圖6是本發(fā)明對(duì)URL進(jìn)行分類的裝置再一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。如圖6所示,該裝置還可以包括:
網(wǎng)頁(yè)內(nèi)容采集模塊601,用于采集URL的網(wǎng)頁(yè)內(nèi)容,并根據(jù)URL的網(wǎng)頁(yè)內(nèi)容和特定算法識(shí)別URL的網(wǎng)頁(yè)類型,以對(duì)URL進(jìn)行分類;
比較模塊602,用于將分類結(jié)果與根據(jù)URL特征信息對(duì)URL進(jìn)行分類的分類結(jié)果進(jìn)行比較;
調(diào)整模塊603,用于根據(jù)比較結(jié)果調(diào)整預(yù)設(shè)閾值的大小。
本實(shí)施例通過對(duì)兩種分類結(jié)果的比較,可以驗(yàn)證本發(fā)明對(duì)URL分類的方法的正確性,根據(jù)驗(yàn)證結(jié)果可以適時(shí)地調(diào)整預(yù)設(shè)閾值的大小,從而進(jìn)一步提高分類結(jié)果的可靠性。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無(wú)遺漏的 或者將本發(fā)明限于所公開的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實(shí)施例是為了更好說(shuō)明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。