一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)與流程

文檔序號(hào)：11250981閱讀：689來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域，特別涉及一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)。

背景技術(shù)：

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，“數(shù)據(jù)及資源”的大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。而在近幾年，用戶信息泄露事件層出不窮，2011年，csdn網(wǎng)站的數(shù)據(jù)被拖庫(kù)，緊接著，2012年天涯論壇4000萬(wàn)信息泄露，2013年，社交網(wǎng)站facebook上600萬(wàn)用戶的個(gè)人信息，如電話、住址、電子郵箱等也被泄露出去，同年，美國(guó)著名軟件公司adobe的數(shù)據(jù)也大批泄露，其中包含了用戶姓名信用卡以及信用卡的過期時(shí)間，2014年，我國(guó)鐵路訂票網(wǎng)站12306也出現(xiàn)用戶數(shù)據(jù)的泄露，同年，攜程網(wǎng)也被報(bào)出存在漏洞，而就在最近，京東12g用戶數(shù)據(jù)也疑似泄露。

當(dāng)今，生活在互聯(lián)網(wǎng)時(shí)代，網(wǎng)絡(luò)成為人們傳遞消息的高速載體。而很多網(wǎng)站出于安全考慮，設(shè)置需要用戶登錄訪問，這樣頻繁的注冊(cè)登錄勢(shì)必降低了用戶體驗(yàn)。所以許多網(wǎng)站和手機(jī)app都支持oauth協(xié)議，允許用戶通過如騰訊qq、微博等第三方社交網(wǎng)絡(luò)賬號(hào)進(jìn)行登錄，使得用戶不向第三方暴露自己的登錄信息的同時(shí)，也能訪問站點(diǎn)資源。因此，這樣在多個(gè)站點(diǎn)的用戶訪問信息因社交賬號(hào)的關(guān)系而進(jìn)行關(guān)聯(lián)。

基于上面提到的泄露數(shù)據(jù)，通過對(duì)大量用戶數(shù)據(jù)進(jìn)行綜合分析、建模、預(yù)測(cè)可形成完整的用戶畫像。利用這部分?jǐn)?shù)據(jù)，對(duì)企業(yè)也來(lái)說，能夠指導(dǎo)產(chǎn)品研發(fā)以及優(yōu)化用戶體驗(yàn)；對(duì)廣告商來(lái)說，可以實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷，實(shí)現(xiàn)巨額收益。另外，這些信息也可能會(huì)被惡意利用，，一些不法分子或詐騙集團(tuán)，利用得到的用戶真實(shí)數(shù)據(jù)，贏取用戶信任，從而進(jìn)行詐騙，造成用戶巨大損失。

這里主要通過關(guān)聯(lián)多個(gè)泄露站點(diǎn)的數(shù)據(jù)，分析用戶個(gè)人屬性以及社交關(guān)系，預(yù)測(cè)用戶真實(shí)屬性(因網(wǎng)絡(luò)的虛擬性，用戶更傾向于使用一些虛假信息隱藏自己)，揭露用戶的隱私泄露現(xiàn)狀。綜上，融合多站點(diǎn)的多類型數(shù)據(jù)，挖掘用戶真實(shí)屬性，告知用戶畫像預(yù)測(cè)的真實(shí)姓名、年齡、班級(jí)等隱私信息，便于用戶了解自身隱私泄露現(xiàn)狀，加強(qiáng)用戶的隱私保護(hù)意識(shí)，具有極為重要的理論和現(xiàn)實(shí)意義。

目前已經(jīng)有一些方法通過分析用戶好友信息來(lái)推斷用戶屬性，但是這些方法主要是基于用戶在社交網(wǎng)站上的好友關(guān)系，構(gòu)建社交關(guān)系圖，通過基于圖的屬性傳播方法來(lái)推測(cè)用戶屬性。為了推測(cè)用戶的屬性，傳統(tǒng)方法需要知道用戶的所有好友，然后根據(jù)好友信息推測(cè)用戶屬性，然而，用戶好友關(guān)系親疏有別，提供的信息價(jià)值也不盡相同。所以僅憑好友來(lái)推斷用戶屬性必然存在瓶頸，要加入新的特征來(lái)突破。

技術(shù)實(shí)現(xiàn)要素：

為了克服上述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的目的在于提供一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)，本發(fā)明考慮用戶在不同社交群組中的關(guān)系，有區(qū)分、加權(quán)性地計(jì)算用戶加入的不同社交群組提供的信息，給可信度更高的社交群組更高的權(quán)值，使得最終的預(yù)測(cè)結(jié)果更準(zhǔn)確；另外，本發(fā)明考慮專業(yè)簡(jiǎn)稱來(lái)對(duì)社交群組進(jìn)行分類，并對(duì)缺失專業(yè)簡(jiǎn)稱的專業(yè)利用分類模型生成對(duì)應(yīng)的專業(yè)簡(jiǎn)稱，完善了先驗(yàn)知識(shí)庫(kù)，使得給社交群組分類結(jié)果更精確。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是：

一種基于社交信息的用戶屬性預(yù)測(cè)方法，包括：

數(shù)據(jù)獲?。韩@取全國(guó)各學(xué)校名稱及專業(yè)名稱，構(gòu)建先驗(yàn)知識(shí)庫(kù)；

文本分析：對(duì)得到的全國(guó)各學(xué)校名稱及專業(yè)名稱進(jìn)行處理，輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱，完善先驗(yàn)知識(shí)庫(kù)；

社交群組分析：分析各社交群組，計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息；

用戶屬性預(yù)測(cè)：利用用戶在多個(gè)群組的社交關(guān)系，考慮每個(gè)社交群組提供的信息，加權(quán)分析預(yù)測(cè)出用戶的真實(shí)屬性，所述用戶的真實(shí)屬性主要包括用戶教育背景和年齡。

所述數(shù)據(jù)獲取過程中，從網(wǎng)上獲取全國(guó)所有學(xué)校名稱，同時(shí)得到各高校開設(shè)專業(yè)名稱；

所述文本分析過程中，通過提取專業(yè)/學(xué)校簡(jiǎn)稱的特征，利用這些特征訓(xùn)練分類器，對(duì)已知專業(yè)簡(jiǎn)稱/學(xué)校的樣本進(jìn)行訓(xùn)練，給出生成的未知專業(yè)/學(xué)校簡(jiǎn)稱的可信度，進(jìn)一步完善先驗(yàn)知識(shí)庫(kù)；

所述社交群組分析過程中，首先根據(jù)經(jīng)驗(yàn)值和3σ原則剔除社交群組中的噪音點(diǎn)，如果待預(yù)測(cè)的用戶仍在社交群組中，則剔除該用戶信息，然后用社交群組中剩余所有用戶的平均值作為該社交群組對(duì)該用戶的屬性估計(jì)值；

所述用戶屬性預(yù)測(cè)過程中，通過分析用戶的社交關(guān)系模式，對(duì)社交群組名稱和簡(jiǎn)介利用關(guān)鍵字，按優(yōu)先級(jí)進(jìn)行匹配，識(shí)別出用戶加入的具體班級(jí)類型，刻畫出相應(yīng)的教育背景，并且根據(jù)“％班％/％屆％”關(guān)鍵字，識(shí)別出用戶就讀該校的年份。

所述文本分析過程中，對(duì)專業(yè)名稱的處理，流程如下：

1)計(jì)算專業(yè)名稱全稱的長(zhǎng)度為n，計(jì)算得到專業(yè)名稱全稱字符串可能的所有子串，即字符串組合問題，從n個(gè)字符中，任取m個(gè)字符組合成一個(gè)新的字符串，m～[min,max],其中，min是要生成的專業(yè)簡(jiǎn)稱的最小長(zhǎng)度，max為最大長(zhǎng)度，1<min<max<n；

2)提取專業(yè)簡(jiǎn)稱的特征，利用這些特征訓(xùn)練分類器，利用已知的部分專業(yè)簡(jiǎn)稱作為訓(xùn)練集，預(yù)測(cè)生成的未知專業(yè)簡(jiǎn)稱的可信度；具體包括如下步驟：

2.1)在特征提取部分，考慮生成的子串的最大距離、最小距離、平均距離、子串的長(zhǎng)度、以及是否包含首尾字符，其中，距離為任意兩個(gè)字符的距離，為在專業(yè)名稱全稱中的位置相差的絕對(duì)值；

2.2)分類器采用logistic回歸(sklearn.linear_model-logisticregression)，使用基于python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn，使用已知的專業(yè)簡(jiǎn)稱樣本作為訓(xùn)練集，對(duì)分類器進(jìn)行訓(xùn)練，再使用該分類器對(duì)其余專業(yè)生成的專業(yè)簡(jiǎn)稱進(jìn)行預(yù)測(cè)，分類器輸出值作為生成的該專業(yè)簡(jiǎn)稱的可信度。

3)對(duì)這多個(gè)專業(yè)簡(jiǎn)稱進(jìn)行可信度排名，選擇可信度高的前k個(gè)作為該專業(yè)的簡(jiǎn)稱。

所述社交群組分析過程中：

假設(shè)社交群組中用戶年齡值為[amin,amax]，設(shè)定amin＝4，amax＝100，首先識(shí)別出社交群組gj中的異常用戶av為用戶v的年齡；

接著，根據(jù)3σ原則剔除噪音點(diǎn)，在正態(tài)分布中σ代表標(biāo)準(zhǔn)差，μ代表均值，x＝μ即為圖像的對(duì)稱軸，3σ原則為數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974，過濾掉不在±3σ范圍的噪音點(diǎn)；

對(duì)每個(gè)社交群組gj，μj和σj為社交群組gj中用戶年齡的平均值和方差，計(jì)算如下：

和其中nj＝|gj|，表示gj中的用戶個(gè)數(shù)；

社交群組gj中有異常年齡的用戶為：

用表示剔除噪音點(diǎn)以后的社交群組，表示中的用戶個(gè)數(shù)，去除用戶u以后，社交群組gj中用戶數(shù)量為很明顯其中否則如果則

當(dāng)nu,j>0時(shí)，讓?duì)蘵,j代表社交群組中的平均值，如下：

估計(jì)用戶屬性的時(shí)候，參考其加入的社團(tuán)群體中其他用戶的特征信息，對(duì)用戶加入的群組，估計(jì)其加入的群組j的平均年齡為μu,j，并將該值作為當(dāng)前社交群組對(duì)用戶u的年齡估計(jì)值，其中j∈nu，nu為用戶u加入的所有社交群組。

所述用戶屬性預(yù)測(cè)過程中，教育背景刻畫是通過分析用戶的社交關(guān)系模式，結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù)，基于關(guān)鍵字匹配刻畫用戶的教育背景，可能匹配上的關(guān)鍵字模式如下：

匹配過程按上述列表先后進(jìn)行匹配，以上信息均未匹配，則認(rèn)為社交群組為非班級(jí)群。

所述用戶屬性預(yù)測(cè)過程中，考慮用戶加入的多個(gè)社交群組，最終對(duì)用戶u的估計(jì)年齡是au，定義參數(shù)wu,j去評(píng)估社交群組計(jì)算得到的用戶u年齡μu,j的誤差，如下：

其中，σu,j代表社交群組中用戶年齡的方差，因此用戶最終年齡估計(jì)值為：

令代表用戶u加入的班級(jí)群，識(shí)別出社交群組中的班級(jí)群，對(duì)有班級(jí)群的用戶，年齡估計(jì)為：

本發(fā)明還提供了一種基于社交信息的用戶屬性預(yù)測(cè)系統(tǒng)，包括：

數(shù)據(jù)獲取模塊：獲取全國(guó)各學(xué)校名稱及專業(yè)名稱，構(gòu)建先驗(yàn)知識(shí)庫(kù)；

具體地，數(shù)據(jù)獲取模塊即從網(wǎng)上獲取全國(guó)所有學(xué)校名稱，同時(shí)得到各高校開設(shè)專業(yè)名稱，構(gòu)建先驗(yàn)知識(shí)庫(kù)。

文本分析模塊：對(duì)得到的全國(guó)各學(xué)校名稱及專業(yè)名稱進(jìn)行處理，輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱，完善先驗(yàn)知識(shí)庫(kù)；

具體地，在實(shí)際生活使用中，為了方便，大家常用簡(jiǎn)稱代替全名稱進(jìn)行溝通交流，在社交群組更是如此，所以對(duì)未知簡(jiǎn)稱的學(xué)校和專業(yè)名稱，我們需要生成對(duì)應(yīng)的簡(jiǎn)稱。

社交群組分析模塊：分析各社交群組，計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息；

具體地，對(duì)各社交群組，使用經(jīng)驗(yàn)和3σ原則剔除社交群組的噪音點(diǎn)，考慮各社交群組提供信息的權(quán)重大小，計(jì)算其提供的價(jià)值信息。

用戶屬性預(yù)測(cè)模塊：利用用戶在多個(gè)群組的社交關(guān)系，考慮每個(gè)社交群組提供的信息，加權(quán)分析預(yù)測(cè)出用戶的真實(shí)屬性，所述用戶的真實(shí)屬性主要包括用戶教育背景和年齡。

具體地，通過分析用戶的社交關(guān)系模式，結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù)，基于關(guān)鍵字匹配刻畫用戶的教育背景。評(píng)估每個(gè)社交群組提供的信息，篩選出部分社交群組，給提供信息更準(zhǔn)確的社交群組分配更高權(quán)值，然后對(duì)多個(gè)群組加權(quán)求值，從而預(yù)測(cè)出用戶的年齡屬性。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

1、通過引入外部數(shù)據(jù)，對(duì)社交群組分析和用戶教育背景刻畫提供先驗(yàn)知識(shí)庫(kù)，提升了結(jié)果的可信度。

本發(fā)明將全國(guó)高校及專業(yè)名稱信息作為先驗(yàn)知識(shí)庫(kù)，考慮社交群組的名稱及簡(jiǎn)介，基于關(guān)鍵字匹配對(duì)社交群組進(jìn)行分類，刻畫出用戶教育背景的同時(shí)，大大提升了結(jié)果的說服力。

2、結(jié)合高校專業(yè)縮寫信息，完善了先驗(yàn)知識(shí)庫(kù)。

本發(fā)明將根據(jù)專業(yè)全稱，生成專業(yè)縮寫，完善了先驗(yàn)知識(shí)庫(kù)，對(duì)社交群組分析提供了更多信息。

3、通過對(duì)社交群組信息加權(quán)來(lái)推測(cè)用戶的屬性信息，考慮各群組提供信息的差異性，提升最終結(jié)果的評(píng)估準(zhǔn)確度。

本發(fā)明通過分析用戶加入社交群組的動(dòng)機(jī)，評(píng)估每個(gè)社交群組提供的信息價(jià)值，篩選出可信的社交群組，并根據(jù)各社交群組提供的信息不同，加權(quán)預(yù)測(cè)計(jì)算得到最終用戶屬性。因考慮到各社交群組提供信息的差異性，給提供信息高的社交群組更高的權(quán)值，使得最終預(yù)測(cè)得到的用戶屬性更可信。

附圖說明

圖1為本發(fā)明方法整體結(jié)構(gòu)圖。

圖2為本發(fā)明文本處理模塊專業(yè)簡(jiǎn)稱可信度預(yù)測(cè)流程圖。

圖3為本發(fā)明文本處理模塊生成專業(yè)簡(jiǎn)稱流程圖。

圖4為本發(fā)明社交群組分析模塊流程圖。

圖5為本發(fā)明用戶屬性預(yù)測(cè)模塊用戶教育背景刻畫流程圖。

圖6為本發(fā)明用戶屬性預(yù)測(cè)模塊用戶年齡屬性預(yù)測(cè)流程圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明的實(shí)施方式。

如圖1所示，本系統(tǒng)由四個(gè)模塊組成，分別是數(shù)據(jù)獲取模塊，文本分析模塊，社交群組分析模塊和用戶屬性預(yù)測(cè)模塊。

首先，從網(wǎng)上爬蟲獲取全國(guó)各學(xué)校名稱及高校開設(shè)所有專業(yè)名稱，包括全國(guó)各學(xué)校名稱，包括小學(xué)，初中，高中，大學(xué)，以及高校開設(shè)所有專業(yè)名稱，構(gòu)建先驗(yàn)知識(shí)庫(kù)。

接著，對(duì)數(shù)據(jù)獲取模塊得到的全國(guó)學(xué)校名稱及各高校開設(shè)所有專業(yè)名稱進(jìn)行處理。輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱。

值得說明的是，所獲取學(xué)校名稱和高校開設(shè)專業(yè)名稱是全稱，而在實(shí)際生活或社交網(wǎng)絡(luò)中，大家大多采取專業(yè)或?qū)W?？s寫來(lái)表示所學(xué)專業(yè)或就讀學(xué)校，因此需要根據(jù)專業(yè)或?qū)W校全稱來(lái)生成可信的專業(yè)或?qū)W?？s寫。

然后，考慮各社交群組提供信息的差異性，剔除群組中噪音點(diǎn)，計(jì)算每個(gè)群組對(duì)用戶預(yù)測(cè)所提供的價(jià)值信息。

最后，通過分析用戶的社交關(guān)系模式，結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù)，基于關(guān)鍵字匹配刻畫用戶的教育背景。評(píng)估每個(gè)社交群組提供的信息，篩選出部分有價(jià)值的社交群組，給提供信息相對(duì)更準(zhǔn)確的社交群組分配更高權(quán)值，然后對(duì)多個(gè)群組加權(quán)求值，從而預(yù)測(cè)出用戶年齡屬性。

本發(fā)明中各個(gè)模塊的詳細(xì)介紹如下：

1、數(shù)據(jù)獲取模塊

主要實(shí)現(xiàn)先驗(yàn)知識(shí)庫(kù)的構(gòu)建，獲取全國(guó)學(xué)校名稱以及各高校開設(shè)的所有專業(yè)。

具體地，數(shù)據(jù)獲取模塊對(duì)學(xué)校名稱的處理過程如下：

作為中國(guó)領(lǐng)先的實(shí)名制社交網(wǎng)絡(luò)平臺(tái)，人人網(wǎng)提供了一個(gè)全方位的互動(dòng)交流平臺(tái)，同時(shí)在個(gè)人頁(yè)面，允許用戶編輯個(gè)人信息，填寫包括小學(xué)，初中，中專技校、高中以及大學(xué)等信息，人人網(wǎng)鼓勵(lì)大家實(shí)名注冊(cè)并對(duì)填寫學(xué)?？蛇M(jìn)行驗(yàn)證，保證了信息來(lái)源的可靠性及全面性。本發(fā)明使用scrapy框架，模擬用戶登錄人人網(wǎng)，當(dāng)用戶在個(gè)人主頁(yè)編輯資料信息時(shí)，選擇添加學(xué)校，頁(yè)面彈出全國(guó)各地所有學(xué)校，按省市遞歸爬取所有頁(yè)面列表，解析出全國(guó)高校名稱信息。

數(shù)據(jù)獲取模塊對(duì)高校專業(yè)處理的過程如下：

在用戶選定大學(xué)和相應(yīng)的入學(xué)年份后，下方彈出該高校開設(shè)的專業(yè)院系，模擬用戶選定學(xué)校這一行為，依次選定各高校，使用scrapy框架爬取高校開設(shè)所有的專業(yè)名稱。經(jīng)過匯總?cè)ブ?，得到全?guó)高校開設(shè)所有專業(yè)。

另外，在全國(guó)高校本科專業(yè)目錄網(wǎng)站上，使用scrapy框架爬蟲獲取所列所有專業(yè)。作為上述通過人人網(wǎng)爬取到專業(yè)名稱的一個(gè)補(bǔ)充。部分高校和專業(yè)的簡(jiǎn)稱在網(wǎng)上有給出，作為后續(xù)文本處理的訓(xùn)練集。

2、文本分析模塊

主要功能是對(duì)數(shù)據(jù)獲取模塊得到的全國(guó)學(xué)校名稱及各高校開設(shè)所有專業(yè)名稱進(jìn)行處理。輸出高校簡(jiǎn)稱和專業(yè)簡(jiǎn)稱。

具體地，在實(shí)際生活使用中，為了方便，大家常用簡(jiǎn)稱代替全名稱進(jìn)行溝通交流，在社交群組更是如此，所以對(duì)未知簡(jiǎn)稱的高校和專業(yè)名稱，需要生成對(duì)應(yīng)的簡(jiǎn)稱。

對(duì)專業(yè)名稱的處理，如圖2和圖3所示，流程如下：

1)計(jì)算專業(yè)名字全稱的長(zhǎng)度為n，計(jì)算得到該字符串可能的所有子串，即字符串組合問題，從n個(gè)字符中，任取m個(gè)字符組合成一個(gè)新的字符串，m～[min,max],其中，min是要生成的專業(yè)簡(jiǎn)稱的最小長(zhǎng)度，max為最大長(zhǎng)度，一般而言，1<min<max<n。

2)提取專業(yè)簡(jiǎn)稱的特征，利用這些特征訓(xùn)練分類器，利用已知的部分專業(yè)簡(jiǎn)稱作為訓(xùn)練集，預(yù)測(cè)生成的未知專業(yè)簡(jiǎn)稱的可信度。具體來(lái)說：

2.1)在特征提取部分，考慮了生成的子串的最大距離、最小距離、平均距離、子串的長(zhǎng)度、以及是否包含首尾字符(1為包含首字符，2為包含尾字符，3為都包含，0為都不包含)。其中提到的距離為任意兩個(gè)字符的距離為在原專業(yè)全稱中的位置相差的絕對(duì)值，舉例來(lái)說，專業(yè)“軟件工程”，有一子串“軟工”，這兩個(gè)字符的距離為2.

2.2)分類器采用logistic回歸(sklearn.linear_model-logisticregression)，使用了基于python的機(jī)器學(xué)習(xí)庫(kù)scikit-learn。對(duì)于專業(yè)來(lái)說，部分專業(yè)的簡(jiǎn)稱是已知的，使用這部分樣本作為訓(xùn)練集，對(duì)分類器進(jìn)行訓(xùn)練，再使用該分類器對(duì)其余專業(yè)生成的專業(yè)簡(jiǎn)稱進(jìn)行預(yù)測(cè)，分類器輸出值作為生成的該專業(yè)簡(jiǎn)稱的可信度。

3)步驟2)輸出生成的專業(yè)簡(jiǎn)稱的可信度，對(duì)一個(gè)專業(yè)來(lái)說，有多個(gè)專業(yè)簡(jiǎn)稱，對(duì)這多個(gè)專業(yè)簡(jiǎn)稱，進(jìn)行可信度排名，選擇可信度高的前k個(gè)作為該專業(yè)的簡(jiǎn)稱。

經(jīng)過上面三個(gè)步驟，對(duì)每個(gè)專業(yè)，選取k個(gè)專業(yè)簡(jiǎn)稱作為其對(duì)應(yīng)的候選集。

同理，學(xué)校名稱對(duì)應(yīng)的簡(jiǎn)稱生成過程如上。

3、社交群組分析模塊

主要功能是分析各社交群組，計(jì)算其對(duì)用戶屬性預(yù)測(cè)所能提供的有價(jià)值信息。

具體地，如圖4所示，對(duì)各社交群組，因社交群組是由每個(gè)獨(dú)立個(gè)體組成，因個(gè)體的差異提供的信息價(jià)值也不相同，也就是說，有的用戶提供的信息明顯是“噪音”，所以，假設(shè)社交群組中用戶年齡值為[amin,amax]，根據(jù)經(jīng)驗(yàn)，設(shè)定amin＝4，amax＝100，使用這個(gè)簡(jiǎn)單規(guī)則，首先識(shí)別出社交群組的gj中的異常用戶(av為用戶v的年齡)

接著根據(jù)3σ原則剔除噪音點(diǎn)，在正態(tài)分布中σ代表標(biāo)準(zhǔn)差,μ代表均值，x＝μ即為圖像的對(duì)稱軸，3σ原則為數(shù)值分布在(μ—3σ,μ+3σ)中的概率為0.9974，過濾掉不在±3σ范圍的噪音點(diǎn)。

對(duì)每個(gè)社交群體gj，μj和σj為社交群組gj中用戶年齡的平均值和方差，如下計(jì)算：

和其中nj＝|gj|

社交群組gj中有異常年齡的用戶為：

用表示剔除噪音點(diǎn)以后的社交群體，表示中的用戶個(gè)數(shù)。去除用戶u以后，社交群體gj中用戶數(shù)量為很明顯其中否則如果則

當(dāng)nu,j>0時(shí)，讓?duì)蘵,j代表社交群組中的平均值。如下：

“物以類聚，人以群分”，互聯(lián)網(wǎng)中社交群體是將用戶因某一興趣或者班級(jí)原因，而聚集在一起，因此一個(gè)社交群體中的用戶屬性相似。利用這一特性，估計(jì)用戶屬性的時(shí)候，可參考其加入的社團(tuán)群體中其他用戶的特征信息。對(duì)用戶加入的群組，估計(jì)其加入的群組j(j∈nu，nu為用戶u加入的所有社交群體)的平均年齡為μu,j，并將該值作為當(dāng)前社交群組對(duì)用戶u的年齡估計(jì)值。

4、用戶屬性預(yù)測(cè)模塊

利用用戶在多個(gè)群組的社交關(guān)系，考慮每個(gè)社交群組提供的信息，加權(quán)計(jì)算預(yù)測(cè)出用戶屬性。主要包括用戶教育背景刻畫和年齡預(yù)測(cè)。

1)教育背景刻畫

如圖5所示，通過分析用戶的社交關(guān)系模式，結(jié)合文本分析模塊生成的先驗(yàn)知識(shí)庫(kù)，基于關(guān)鍵字匹配刻畫用戶的教育背景。

為了描述方便，表1給出可能匹配上的關(guān)鍵字模式：

表1待匹配的關(guān)鍵字

注：匹配過程按上述列表先后進(jìn)行匹配，以上信息均未匹配，則認(rèn)為社交群組為非班級(jí)群。

通過對(duì)社交群組名稱和簡(jiǎn)介利用上述關(guān)鍵字，按優(yōu)先級(jí)進(jìn)行匹配，識(shí)別出用戶加入的具體班級(jí)類型(大學(xué)，初中，高中，小學(xué)，碩士，博士)，刻畫出相應(yīng)的教育背景。并且根據(jù)“％班％/％屆％”關(guān)鍵字，識(shí)別出用戶就讀該校的年份。對(duì)于沒打上標(biāo)簽的社交群組，則認(rèn)為是非班級(jí)群。

2)年齡預(yù)測(cè)

如圖6所示，具體地，一般來(lái)說，用戶加入不止一個(gè)社交群組，也就是說，|nu|>1。接著，考慮多個(gè)社交群組，最終對(duì)用戶u的估計(jì)年齡是au。定義參數(shù)wu,j去評(píng)估社交群組計(jì)算得到的用戶u年齡μu,j的誤差。如下：

其中，σu,j代表社交群組中用戶年齡的方差，也就是，因此用戶最終年齡估計(jì)值為：

一般來(lái)說，同班同學(xué)之間年齡更為相似。所以，介紹一種基于班級(jí)群的用戶年齡估計(jì)方法。代表用戶u加入的班級(jí)群，在模塊社交用戶分類部分，識(shí)別出社交群組中的班級(jí)群，對(duì)有班級(jí)群的用戶，的年齡估計(jì)為：

綜上，本發(fā)明提供的一種基于社交信息的用戶屬性預(yù)測(cè)模塊，通過對(duì)用戶加入的社交群體關(guān)系進(jìn)行分析，預(yù)測(cè)用戶的真實(shí)身份屬性。本發(fā)明可用于用戶屬性真實(shí)性檢測(cè)，也可用于用戶畫像。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王平輝;陶敬;陳雅靜;管曉宏;梁肖;孫飛揚(yáng);蘭林;賈鵬;潛禹橋;孫立遠(yuǎn);柳哲
技術(shù)所有人：西安交通大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

2017社交媒體用戶數(shù)量相關(guān)技術(shù)

2016社交媒體用戶報(bào)告相關(guān)技術(shù)

社交軟件用戶數(shù)量排名相關(guān)技術(shù)

社交屬性相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于社交信息的用戶屬性預(yù)測(cè)方法與系統(tǒng)與流程