午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)與流程

文檔序號(hào):11250981閱讀:689來(lái)源:國(guó)知局
一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)與流程

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,“數(shù)據(jù)及資源”的大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。而在近幾年,用戶信息泄露事件層出不窮,2011年,csdn網(wǎng)站的數(shù)據(jù)被拖庫(kù),緊接著,2012年天涯論壇4000萬(wàn)信息泄露,2013年,社交網(wǎng)站facebook上600萬(wàn)用戶的個(gè)人信息,如電話、住址、電子郵箱等也被泄露出去,同年,美國(guó)著名軟件公司adobe的數(shù)據(jù)也大批泄露,其中包含了用戶姓名信用卡以及信用卡的過期時(shí)間,2014年,我國(guó)鐵路訂票網(wǎng)站12306也出現(xiàn)用戶數(shù)據(jù)的泄露,同年,攜程網(wǎng)也被報(bào)出存在漏洞,而就在最近,京東12g用戶數(shù)據(jù)也疑似泄露。

當(dāng)今,生活在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)成為人們傳遞消息的高速載體。而很多網(wǎng)站出于安全考慮,設(shè)置需要用戶登錄訪問,這樣頻繁的注冊(cè)登錄勢(shì)必降低了用戶體驗(yàn)。所以許多網(wǎng)站和手機(jī)app都支持oauth協(xié)議,允許用戶通過如騰訊qq、微博等第三方社交網(wǎng)絡(luò)賬號(hào)進(jìn)行登錄,使得用戶不向第三方暴露自己的登錄信息的同時(shí),也能訪問站點(diǎn)資源。因此,這樣在多個(gè)站點(diǎn)的用戶訪問信息因社交賬號(hào)的關(guān)系而進(jìn)行關(guān)聯(lián)。

基于上面提到的泄露數(shù)據(jù),通過對(duì)大量用戶數(shù)據(jù)進(jìn)行綜合分析、建模、預(yù)測(cè)可形成完整的用戶畫像。利用這部分?jǐn)?shù)據(jù),對(duì)企業(yè)也來(lái)說,能夠指導(dǎo)產(chǎn)品研發(fā)以及優(yōu)化用戶體驗(yàn);對(duì)廣告商來(lái)說,可以實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷,實(shí)現(xiàn)巨額收益。另外,這些信息也可能會(huì)被惡意利用,,一些不法分子或詐騙集團(tuán),利用得到的用戶真實(shí)數(shù)據(jù),贏取用戶信任,從而進(jìn)行詐騙,造成用戶巨大損失。

這里主要通過關(guān)聯(lián)多個(gè)泄露站點(diǎn)的數(shù)據(jù),分析用戶個(gè)人屬性以及社交關(guān)系,預(yù)測(cè)用戶真實(shí)屬性(因網(wǎng)絡(luò)的虛擬性,用戶更傾向于使用一些虛假信息隱藏自己),揭露用戶的隱私泄露現(xiàn)狀。綜上,融合多站點(diǎn)的多類型數(shù)據(jù),挖掘用戶真實(shí)屬性,告知用戶畫像預(yù)測(cè)的真實(shí)姓名、年齡、班級(jí)等隱私信息,便于用戶了解自身隱私泄露現(xiàn)狀,加強(qiáng)用戶的隱私保護(hù)意識(shí),具有極為重要的理論和現(xiàn)實(shí)意義。

目前已經(jīng)有一些方法通過分析用戶好友信息來(lái)推斷用戶屬性,但是這些方法主要是基于用戶在社交網(wǎng)站上的好友關(guān)系,構(gòu)建社交關(guān)系圖,通過基于圖的屬性傳播方法來(lái)推測(cè)用戶屬性。為了推測(cè)用戶的屬性,傳統(tǒng)方法需要知道用戶的所有好友,然后根據(jù)好友信息推測(cè)用戶屬性,然而,用戶好友關(guān)系親疏有別,提供的信息價(jià)值也不盡相同。所以僅憑好友來(lái)推斷用戶屬性必然存在瓶頸,要加入新的特征來(lái)突破。



技術(shù)實(shí)現(xiàn)要素:

為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng),本發(fā)明考慮用戶在不同社交群組中的關(guān)系,有區(qū)分、加權(quán)性地計(jì)算用戶加入的不同社交群組提供的信息,給可信度更高的社交群組更高的權(quán)值,使得最終的預(yù)測(cè)結(jié)果更準(zhǔn)確;另外,本發(fā)明考慮專業(yè)簡(jiǎn)稱來(lái)對(duì)社交群組進(jìn)行分類,并對(duì)缺失專業(yè)簡(jiǎn)稱的專業(yè)利用分類模型生成對(duì)應(yīng)的專業(yè)簡(jiǎn)稱,完善了先驗(yàn)知識(shí)庫(kù),使得給社交群組分類結(jié)果更精確。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:

一種基于社交信息的用戶屬性預(yù)測(cè)方法,包括:

數(shù)據(jù)獲?。韩@取全國(guó)各學(xué)校名稱及專業(yè)名稱,構(gòu)建先驗(yàn)知識(shí)庫(kù);

文本分析:對(duì)得到的全國(guó)各學(xué)校名稱及專業(yè)名稱進(jìn)行處理,輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱,完善先驗(yàn)知識(shí)庫(kù);

社交群組分析:分析各社交群組,計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息;

用戶屬性預(yù)測(cè):利用用戶在多個(gè)群組的社交關(guān)系,考慮每個(gè)社交群組提供的信息,加權(quán)分析預(yù)測(cè)出用戶的真實(shí)屬性,所述用戶的真實(shí)屬性主要包括用戶教育背景和年齡。

所述數(shù)據(jù)獲取過程中,從網(wǎng)上獲取全國(guó)所有學(xué)校名稱,同時(shí)得到各高校開設(shè)專業(yè)名稱;

所述文本分析過程中,通過提取專業(yè)/學(xué)校簡(jiǎn)稱的特征,利用這些特征訓(xùn)練分類器,對(duì)已知專業(yè)簡(jiǎn)稱/學(xué)校的樣本進(jìn)行訓(xùn)練,給出生成的未知專業(yè)/學(xué)校簡(jiǎn)稱的可信度,進(jìn)一步完善先驗(yàn)知識(shí)庫(kù);

所述社交群組分析過程中,首先根據(jù)經(jīng)驗(yàn)值和3σ原則剔除社交群組中的噪音點(diǎn),如果待預(yù)測(cè)的用戶仍在社交群組中,則剔除該用戶信息,然后用社交群組中剩余所有用戶的平均值作為該社交群組對(duì)該用戶的屬性估計(jì)值;

所述用戶屬性預(yù)測(cè)過程中,通過分析用戶的社交關(guān)系模式,對(duì)社交群組名稱和簡(jiǎn)介利用關(guān)鍵字,按優(yōu)先級(jí)進(jìn)行匹配,識(shí)別出用戶加入的具體班級(jí)類型,刻畫出相應(yīng)的教育背景,并且根據(jù)“%班%/%屆%”關(guān)鍵字,識(shí)別出用戶就讀該校的年份。

所述文本分析過程中,對(duì)專業(yè)名稱的處理,流程如下:

1)計(jì)算專業(yè)名稱全稱的長(zhǎng)度為n,計(jì)算得到專業(yè)名稱全稱字符串可能的所有子串,即字符串組合問題,從n個(gè)字符中,任取m個(gè)字符組合成一個(gè)新的字符串,m~[min,max],其中,min是要生成的專業(yè)簡(jiǎn)稱的最小長(zhǎng)度,max為最大長(zhǎng)度,1<min<max<n;

2)提取專業(yè)簡(jiǎn)稱的特征,利用這些特征訓(xùn)練分類器,利用已知的部分專業(yè)簡(jiǎn)稱作為訓(xùn)練集,預(yù)測(cè)生成的未知專業(yè)簡(jiǎn)稱的可信度;具體包括如下步驟:

2.1)在特征提取部分,考慮生成的子串的最大距離、最小距離、平均距離、子串的長(zhǎng)度、以及是否包含首尾字符,其中,距離為任意兩個(gè)字符的距離,為在專業(yè)名稱全稱中的位置相差的絕對(duì)值;

2.2)分類器采用logistic回歸(sklearn.linear_model-logisticregression),使用基于python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn,使用已知的專業(yè)簡(jiǎn)稱樣本作為訓(xùn)練集,對(duì)分類器進(jìn)行訓(xùn)練,再使用該分類器對(duì)其余專業(yè)生成的專業(yè)簡(jiǎn)稱進(jìn)行預(yù)測(cè),分類器輸出值作為生成的該專業(yè)簡(jiǎn)稱的可信度。

3)對(duì)這多個(gè)專業(yè)簡(jiǎn)稱進(jìn)行可信度排名,選擇可信度高的前k個(gè)作為該專業(yè)的簡(jiǎn)稱。

所述社交群組分析過程中:

假設(shè)社交群組中用戶年齡值為[amin,amax],設(shè)定amin=4,amax=100,首先識(shí)別出社交群組gj中的異常用戶av為用戶v的年齡;

接著,根據(jù)3σ原則剔除噪音點(diǎn),在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,μ代表均值,x=μ即為圖像的對(duì)稱軸,3σ原則為數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974,過濾掉不在±3σ范圍的噪音點(diǎn);

對(duì)每個(gè)社交群組gj,μj和σj為社交群組gj中用戶年齡的平均值和方差,計(jì)算如下:

其中nj=|gj|,表示gj中的用戶個(gè)數(shù);

社交群組gj中有異常年齡的用戶為:

表示剔除噪音點(diǎn)以后的社交群組,表示中的用戶個(gè)數(shù),去除用戶u以后,社交群組gj中用戶數(shù)量為很明顯其中否則如果

當(dāng)nu,j>0時(shí),讓?duì)蘵,j代表社交群組中的平均值,如下:

估計(jì)用戶屬性的時(shí)候,參考其加入的社團(tuán)群體中其他用戶的特征信息,對(duì)用戶加入的群組,估計(jì)其加入的群組j的平均年齡為μu,j,并將該值作為當(dāng)前社交群組對(duì)用戶u的年齡估計(jì)值,其中j∈nu,nu為用戶u加入的所有社交群組。

所述用戶屬性預(yù)測(cè)過程中,教育背景刻畫是通過分析用戶的社交關(guān)系模式,結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù),基于關(guān)鍵字匹配刻畫用戶的教育背景,可能匹配上的關(guān)鍵字模式如下:

匹配過程按上述列表先后進(jìn)行匹配,以上信息均未匹配,則認(rèn)為社交群組為非班級(jí)群。

所述用戶屬性預(yù)測(cè)過程中,考慮用戶加入的多個(gè)社交群組,最終對(duì)用戶u的估計(jì)年齡是au,定義參數(shù)wu,j去評(píng)估社交群組計(jì)算得到的用戶u年齡μu,j的誤差,如下:

其中,σu,j代表社交群組中用戶年齡的方差,因此用戶最終年齡估計(jì)值為:

代表用戶u加入的班級(jí)群,識(shí)別出社交群組中的班級(jí)群,對(duì)有班級(jí)群的用戶,年齡估計(jì)為:

本發(fā)明還提供了一種基于社交信息的用戶屬性預(yù)測(cè)系統(tǒng),包括:

數(shù)據(jù)獲取模塊:獲取全國(guó)各學(xué)校名稱及專業(yè)名稱,構(gòu)建先驗(yàn)知識(shí)庫(kù);

具體地,數(shù)據(jù)獲取模塊即從網(wǎng)上獲取全國(guó)所有學(xué)校名稱,同時(shí)得到各高校開設(shè)專業(yè)名稱,構(gòu)建先驗(yàn)知識(shí)庫(kù)。

文本分析模塊:對(duì)得到的全國(guó)各學(xué)校名稱及專業(yè)名稱進(jìn)行處理,輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱,完善先驗(yàn)知識(shí)庫(kù);

具體地,在實(shí)際生活使用中,為了方便,大家常用簡(jiǎn)稱代替全名稱進(jìn)行溝通交流,在社交群組更是如此,所以對(duì)未知簡(jiǎn)稱的學(xué)校和專業(yè)名稱,我們需要生成對(duì)應(yīng)的簡(jiǎn)稱。

社交群組分析模塊:分析各社交群組,計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息;

具體地,對(duì)各社交群組,使用經(jīng)驗(yàn)和3σ原則剔除社交群組的噪音點(diǎn),考慮各社交群組提供信息的權(quán)重大小,計(jì)算其提供的價(jià)值信息。

用戶屬性預(yù)測(cè)模塊:利用用戶在多個(gè)群組的社交關(guān)系,考慮每個(gè)社交群組提供的信息,加權(quán)分析預(yù)測(cè)出用戶的真實(shí)屬性,所述用戶的真實(shí)屬性主要包括用戶教育背景和年齡。

具體地,通過分析用戶的社交關(guān)系模式,結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù),基于關(guān)鍵字匹配刻畫用戶的教育背景。評(píng)估每個(gè)社交群組提供的信息,篩選出部分社交群組,給提供信息更準(zhǔn)確的社交群組分配更高權(quán)值,然后對(duì)多個(gè)群組加權(quán)求值,從而預(yù)測(cè)出用戶的年齡屬性。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

1、通過引入外部數(shù)據(jù),對(duì)社交群組分析和用戶教育背景刻畫提供先驗(yàn)知識(shí)庫(kù),提升了結(jié)果的可信度。

本發(fā)明將全國(guó)高校及專業(yè)名稱信息作為先驗(yàn)知識(shí)庫(kù),考慮社交群組的名稱及簡(jiǎn)介,基于關(guān)鍵字匹配對(duì)社交群組進(jìn)行分類,刻畫出用戶教育背景的同時(shí),大大提升了結(jié)果的說服力。

2、結(jié)合高校專業(yè)縮寫信息,完善了先驗(yàn)知識(shí)庫(kù)。

本發(fā)明將根據(jù)專業(yè)全稱,生成專業(yè)縮寫,完善了先驗(yàn)知識(shí)庫(kù),對(duì)社交群組分析提供了更多信息。

3、通過對(duì)社交群組信息加權(quán)來(lái)推測(cè)用戶的屬性信息,考慮各群組提供信息的差異性,提升最終結(jié)果的評(píng)估準(zhǔn)確度。

本發(fā)明通過分析用戶加入社交群組的動(dòng)機(jī),評(píng)估每個(gè)社交群組提供的信息價(jià)值,篩選出可信的社交群組,并根據(jù)各社交群組提供的信息不同,加權(quán)預(yù)測(cè)計(jì)算得到最終用戶屬性。因考慮到各社交群組提供信息的差異性,給提供信息高的社交群組更高的權(quán)值,使得最終預(yù)測(cè)得到的用戶屬性更可信。

附圖說明

圖1為本發(fā)明方法整體結(jié)構(gòu)圖。

圖2為本發(fā)明文本處理模塊專業(yè)簡(jiǎn)稱可信度預(yù)測(cè)流程圖。

圖3為本發(fā)明文本處理模塊生成專業(yè)簡(jiǎn)稱流程圖。

圖4為本發(fā)明社交群組分析模塊流程圖。

圖5為本發(fā)明用戶屬性預(yù)測(cè)模塊用戶教育背景刻畫流程圖。

圖6為本發(fā)明用戶屬性預(yù)測(cè)模塊用戶年齡屬性預(yù)測(cè)流程圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明的實(shí)施方式。

如圖1所示,本系統(tǒng)由四個(gè)模塊組成,分別是數(shù)據(jù)獲取模塊,文本分析模塊,社交群組分析模塊和用戶屬性預(yù)測(cè)模塊。

首先,從網(wǎng)上爬蟲獲取全國(guó)各學(xué)校名稱及高校開設(shè)所有專業(yè)名稱,包括全國(guó)各學(xué)校名稱,包括小學(xué),初中,高中,大學(xué),以及高校開設(shè)所有專業(yè)名稱,構(gòu)建先驗(yàn)知識(shí)庫(kù)。

接著,對(duì)數(shù)據(jù)獲取模塊得到的全國(guó)學(xué)校名稱及各高校開設(shè)所有專業(yè)名稱進(jìn)行處理。輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱。

值得說明的是,所獲取學(xué)校名稱和高校開設(shè)專業(yè)名稱是全稱,而在實(shí)際生活或社交網(wǎng)絡(luò)中,大家大多采取專業(yè)或?qū)W??s寫來(lái)表示所學(xué)專業(yè)或就讀學(xué)校,因此需要根據(jù)專業(yè)或?qū)W校全稱來(lái)生成可信的專業(yè)或?qū)W??s寫。

然后,考慮各社交群組提供信息的差異性,剔除群組中噪音點(diǎn),計(jì)算每個(gè)群組對(duì)用戶預(yù)測(cè)所提供的價(jià)值信息。

最后,通過分析用戶的社交關(guān)系模式,結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù),基于關(guān)鍵字匹配刻畫用戶的教育背景。評(píng)估每個(gè)社交群組提供的信息,篩選出部分有價(jià)值的社交群組,給提供信息相對(duì)更準(zhǔn)確的社交群組分配更高權(quán)值,然后對(duì)多個(gè)群組加權(quán)求值,從而預(yù)測(cè)出用戶年齡屬性。

本發(fā)明中各個(gè)模塊的詳細(xì)介紹如下:

1、數(shù)據(jù)獲取模塊

主要實(shí)現(xiàn)先驗(yàn)知識(shí)庫(kù)的構(gòu)建,獲取全國(guó)學(xué)校名稱以及各高校開設(shè)的所有專業(yè)。

具體地,數(shù)據(jù)獲取模塊對(duì)學(xué)校名稱的處理過程如下:

作為中國(guó)領(lǐng)先的實(shí)名制社交網(wǎng)絡(luò)平臺(tái),人人網(wǎng)提供了一個(gè)全方位的互動(dòng)交流平臺(tái),同時(shí)在個(gè)人頁(yè)面,允許用戶編輯個(gè)人信息,填寫包括小學(xué),初中,中專技校、高中以及大學(xué)等信息,人人網(wǎng)鼓勵(lì)大家實(shí)名注冊(cè)并對(duì)填寫學(xué)??蛇M(jìn)行驗(yàn)證,保證了信息來(lái)源的可靠性及全面性。本發(fā)明使用scrapy框架,模擬用戶登錄人人網(wǎng),當(dāng)用戶在個(gè)人主頁(yè)編輯資料信息時(shí),選擇添加學(xué)校,頁(yè)面彈出全國(guó)各地所有學(xué)校,按省市遞歸爬取所有頁(yè)面列表,解析出全國(guó)高校名稱信息。

數(shù)據(jù)獲取模塊對(duì)高校專業(yè)處理的過程如下:

在用戶選定大學(xué)和相應(yīng)的入學(xué)年份后,下方彈出該高校開設(shè)的專業(yè)院系,模擬用戶選定學(xué)校這一行為,依次選定各高校,使用scrapy框架爬取高校開設(shè)所有的專業(yè)名稱。經(jīng)過匯總?cè)ブ?,得到全?guó)高校開設(shè)所有專業(yè)。

另外,在全國(guó)高校本科專業(yè)目錄網(wǎng)站上,使用scrapy框架爬蟲獲取所列所有專業(yè)。作為上述通過人人網(wǎng)爬取到專業(yè)名稱的一個(gè)補(bǔ)充。部分高校和專業(yè)的簡(jiǎn)稱在網(wǎng)上有給出,作為后續(xù)文本處理的訓(xùn)練集。

2、文本分析模塊

主要功能是對(duì)數(shù)據(jù)獲取模塊得到的全國(guó)學(xué)校名稱及各高校開設(shè)所有專業(yè)名稱進(jìn)行處理。輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱。

具體地,在實(shí)際生活使用中,為了方便,大家常用簡(jiǎn)稱代替全名稱進(jìn)行溝通交流,在社交群組更是如此,所以對(duì)未知簡(jiǎn)稱的高校和專業(yè)名稱,需要生成對(duì)應(yīng)的簡(jiǎn)稱。

對(duì)專業(yè)名稱的處理,如圖2和圖3所示,流程如下:

1)計(jì)算專業(yè)名字全稱的長(zhǎng)度為n,計(jì)算得到該字符串可能的所有子串,即字符串組合問題,從n個(gè)字符中,任取m個(gè)字符組合成一個(gè)新的字符串,m~[min,max],其中,min是要生成的專業(yè)簡(jiǎn)稱的最小長(zhǎng)度,max為最大長(zhǎng)度,一般而言,1<min<max<n。

2)提取專業(yè)簡(jiǎn)稱的特征,利用這些特征訓(xùn)練分類器,利用已知的部分專業(yè)簡(jiǎn)稱作為訓(xùn)練集,預(yù)測(cè)生成的未知專業(yè)簡(jiǎn)稱的可信度。具體來(lái)說:

2.1)在特征提取部分,考慮了生成的子串的最大距離、最小距離、平均距離、子串的長(zhǎng)度、以及是否包含首尾字符(1為包含首字符,2為包含尾字符,3為都包含,0為都不包含)。其中提到的距離為任意兩個(gè)字符的距離為在原專業(yè)全稱中的位置相差的絕對(duì)值,舉例來(lái)說,專業(yè)“軟件工程”,有一子串“軟工”,這兩個(gè)字符的距離為2.

2.2)分類器采用logistic回歸(sklearn.linear_model-logisticregression),使用了基于python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn。對(duì)于專業(yè)來(lái)說,部分專業(yè)的簡(jiǎn)稱是已知的,使用這部分樣本作為訓(xùn)練集,對(duì)分類器進(jìn)行訓(xùn)練,再使用該分類器對(duì)其余專業(yè)生成的專業(yè)簡(jiǎn)稱進(jìn)行預(yù)測(cè),分類器輸出值作為生成的該專業(yè)簡(jiǎn)稱的可信度。

3)步驟2)輸出生成的專業(yè)簡(jiǎn)稱的可信度,對(duì)一個(gè)專業(yè)來(lái)說,有多個(gè)專業(yè)簡(jiǎn)稱,對(duì)這多個(gè)專業(yè)簡(jiǎn)稱,進(jìn)行可信度排名,選擇可信度高的前k個(gè)作為該專業(yè)的簡(jiǎn)稱。

經(jīng)過上面三個(gè)步驟,對(duì)每個(gè)專業(yè),選取k個(gè)專業(yè)簡(jiǎn)稱作為其對(duì)應(yīng)的候選集。

同理,學(xué)校名稱對(duì)應(yīng)的簡(jiǎn)稱生成過程如上。

3、社交群組分析模塊

主要功能是分析各社交群組,計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息。

具體地,如圖4所示,對(duì)各社交群組,因社交群組是由每個(gè)獨(dú)立個(gè)體組成,因個(gè)體的差異提供的信息價(jià)值也不相同,也就是說,有的用戶提供的信息明顯是“噪音”,所以,假設(shè)社交群組中用戶年齡值為[amin,amax],根據(jù)經(jīng)驗(yàn),設(shè)定amin=4,amax=100,使用這個(gè)簡(jiǎn)單規(guī)則,首先識(shí)別出社交群組的gj中的異常用戶(av為用戶v的年齡)

接著根據(jù)3σ原則剔除噪音點(diǎn),在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,μ代表均值,x=μ即為圖像的對(duì)稱軸,3σ原則為數(shù)值分布在(μ—3σ,μ+3σ)中的概率為0.9974,過濾掉不在±3σ范圍的噪音點(diǎn)。

對(duì)每個(gè)社交群體gj,μj和σj為社交群組gj中用戶年齡的平均值和方差,如下計(jì)算:

其中nj=|gj|

社交群組gj中有異常年齡的用戶為:

表示剔除噪音點(diǎn)以后的社交群體,表示中的用戶個(gè)數(shù)。去除用戶u以后,社交群體gj中用戶數(shù)量為很明顯其中否則如果

當(dāng)nu,j>0時(shí),讓?duì)蘵,j代表社交群組中的平均值。如下:

“物以類聚,人以群分”,互聯(lián)網(wǎng)中社交群體是將用戶因某一興趣或者班級(jí)原因,而聚集在一起,因此一個(gè)社交群體中的用戶屬性相似。利用這一特性,估計(jì)用戶屬性的時(shí)候,可參考其加入的社團(tuán)群體中其他用戶的特征信息。對(duì)用戶加入的群組,估計(jì)其加入的群組j(j∈nu,nu為用戶u加入的所有社交群體)的平均年齡為μu,j,并將該值作為當(dāng)前社交群組對(duì)用戶u的年齡估計(jì)值。

4、用戶屬性預(yù)測(cè)模塊

利用用戶在多個(gè)群組的社交關(guān)系,考慮每個(gè)社交群組提供的信息,加權(quán)計(jì)算預(yù)測(cè)出用戶屬性。主要包括用戶教育背景刻畫和年齡預(yù)測(cè)。

1)教育背景刻畫

如圖5所示,通過分析用戶的社交關(guān)系模式,結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù),基于關(guān)鍵字匹配刻畫用戶的教育背景。

為了描述方便,表1給出可能匹配上的關(guān)鍵字模式:

表1待匹配的關(guān)鍵字

注:匹配過程按上述列表先后進(jìn)行匹配,以上信息均未匹配,則認(rèn)為社交群組為非班級(jí)群。

通過對(duì)社交群組名稱和簡(jiǎn)介利用上述關(guān)鍵字,按優(yōu)先級(jí)進(jìn)行匹配,識(shí)別出用戶加入的具體班級(jí)類型(大學(xué),初中,高中,小學(xué),碩士,博士),刻畫出相應(yīng)的教育背景。并且根據(jù)“%班%/%屆%”關(guān)鍵字,識(shí)別出用戶就讀該校的年份。對(duì)于沒打上標(biāo)簽的社交群組,則認(rèn)為是非班級(jí)群。

2)年齡預(yù)測(cè)

如圖6所示,具體地,一般來(lái)說,用戶加入不止一個(gè)社交群組,也就是說,|nu|>1。接著,考慮多個(gè)社交群組,最終對(duì)用戶u的估計(jì)年齡是au。定義參數(shù)wu,j去評(píng)估社交群組計(jì)算得到的用戶u年齡μu,j的誤差。如下:

其中,σu,j代表社交群組中用戶年齡的方差,也就是,因此用戶最終年齡估計(jì)值為:

一般來(lái)說,同班同學(xué)之間年齡更為相似。所以,介紹一種基于班級(jí)群的用戶年齡估計(jì)方法。代表用戶u加入的班級(jí)群,在模塊社交用戶分類部分,識(shí)別出社交群組中的班級(jí)群,對(duì)有班級(jí)群的用戶,的年齡估計(jì)為:

綜上,本發(fā)明提供的一種基于社交信息的用戶屬性預(yù)測(cè)模塊,通過對(duì)用戶加入的社交群體關(guān)系進(jìn)行分析,預(yù)測(cè)用戶的真實(shí)身份屬性。本發(fā)明可用于用戶屬性真實(shí)性檢測(cè),也可用于用戶畫像。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1