午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

在多個(gè)社交網(wǎng)絡(luò)中識別同一用戶的方法及裝置的制造方法

文檔序號:8259980閱讀:598來源:國知局
在多個(gè)社交網(wǎng)絡(luò)中識別同一用戶的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)用戶識別技術(shù)領(lǐng)域,特別是涉及一種在多個(gè)社交網(wǎng)絡(luò)中識別同一 用戶的方法及裝置。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)越來越流行,種類也越來越多(例如Facebook、Twitter、WeChat、 Foursquare等),各種社交網(wǎng)絡(luò)大部分都是相互獨(dú)立的。每一個(gè)社交網(wǎng)絡(luò)都有基于賬號的大 量異構(gòu)數(shù)據(jù)集,包括時(shí)間、地點(diǎn)、人物、事件等多樣化的數(shù)據(jù)類型。一個(gè)用戶常常同時(shí)活躍于 多個(gè)社交網(wǎng)絡(luò)中,分別使用不同的賬號,產(chǎn)生大量散布在各個(gè)社交網(wǎng)絡(luò)的獨(dú)立數(shù)據(jù)集。把同 一用戶的不同社交網(wǎng)絡(luò)的數(shù)據(jù)集關(guān)聯(lián)在一起,將大大擴(kuò)展基于同一用戶的數(shù)據(jù)信息,對許 多數(shù)據(jù)挖掘分析意義重大。
[0003] 現(xiàn)有技術(shù)中,把同一用戶的不同社交網(wǎng)絡(luò)的數(shù)據(jù)集關(guān)聯(lián)在一起的方法主要是:首 先,對社交網(wǎng)絡(luò)中的賬號進(jìn)行建模,使用賬號的注冊信息以及該賬號的用戶在社交網(wǎng)絡(luò)中 發(fā)布的文本內(nèi)容,生成描述賬號特征的向量,該向量包括該賬號的用戶的名稱、用戶的生 日、用戶的學(xué)位,用戶的愛好(如歌曲、顏色、食物等)等屬性;其次,對向量中的不同屬性賦 予不同的權(quán)重,該權(quán)重體現(xiàn)該屬性對區(qū)別不同用戶的重要程度;最后,計(jì)算不同賬號向量之 間的相似度,用來識別是否屬于同一個(gè)用戶。
[0004] 本申請的發(fā)明人在長期的研發(fā)中發(fā)現(xiàn),上述方法描述賬號特征的屬性不全面,只 使用賬號的注冊信息及部分的文本信息,不能全面準(zhǔn)確地刻畫一個(gè)賬號的特點(diǎn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明主要解決的技術(shù)問題是提供一種在多個(gè)社交網(wǎng)絡(luò)中識別同一用戶的方法 及裝置,能夠全面準(zhǔn)確地描述用戶的信息,使最后的預(yù)測結(jié)果準(zhǔn)確性更高。
[0006] 第一方面,本發(fā)明提供一種在多個(gè)社交網(wǎng)絡(luò)中識別同一用戶的方法,定義所述同 一用戶在同一社交網(wǎng)絡(luò)中只有一個(gè)賬號,賬號組合中賬號的個(gè)數(shù)等于社交網(wǎng)絡(luò)的個(gè)數(shù),所 述賬號組合中每個(gè)賬號分別來自不同的社交網(wǎng)絡(luò);所述方法包括:輸入從至少兩個(gè)不同的 社交網(wǎng)絡(luò)的注冊賬號中獲取的測試集的賬號,并將所述測試集的賬號生成測試集賬號組 合;抽取所述測試集賬號組合中每個(gè)賬號的至少兩個(gè)不同的與所述賬號的用戶的行為數(shù)據(jù) 相關(guān)的特征;將所述測試集賬號組合中每個(gè)賬號的至少兩個(gè)不同的與所述賬號的用戶的行 為數(shù)據(jù)相關(guān)的特征輸入到已建立的分類預(yù)測模型中,獲得所述測試集賬號組合的可能屬于 同一用戶的預(yù)測值或預(yù)測值集合;通過關(guān)聯(lián)算法對所述測試集賬號組合的預(yù)測值或預(yù)測值 集合進(jìn)行計(jì)算,輸出所述計(jì)算出的測試集賬號組合的預(yù)測結(jié)果。
[0007] 在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述將所述測試集賬號組合中每個(gè)賬號 的至少兩個(gè)不同的與所述賬號的用戶的行為數(shù)據(jù)相關(guān)的特征輸入到已建立的分類預(yù)測模 型中,獲得所述測試集賬號組合的可能屬于同一用戶的預(yù)測值或預(yù)測值集合的步驟之前, 包括:輸入從所述至少兩個(gè)不同的社交網(wǎng)絡(luò)中獲取的訓(xùn)練集的賬號,并將所述訓(xùn)練集的賬 號中屬于同一用戶的賬號生成訓(xùn)練集賬號組合;抽取所述訓(xùn)練集賬號組合中每個(gè)賬號的至 少兩個(gè)不同的與所述賬號的用戶的行為數(shù)據(jù)相關(guān)的特征;通過監(jiān)督分類算法,利用所述訓(xùn) 練集賬號組合中每個(gè)賬號的至少兩個(gè)不同的與所述賬號的用戶的行為數(shù)據(jù)相關(guān)的特征對 所述訓(xùn)練集進(jìn)行訓(xùn)練,獲得所述分類預(yù)測模型。
[0008] 結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的 實(shí)現(xiàn)方式中,所述至少兩個(gè)不同的與所述賬號的用戶的行為數(shù)據(jù)相關(guān)的特征包括:所述賬 號組合中賬號的社交特征、所述賬號組合中賬號發(fā)布信息的空間特征、所述賬號組合中賬 號發(fā)布信息的時(shí)間特征以及所述賬號組合中賬號發(fā)布信息的文本特征。
[0009] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式 中,所述賬號組合中賬號的社交特征包括:公共相鄰元素個(gè)數(shù)、杰卡德Jaccard相似系數(shù)以 及亞當(dāng)-阿達(dá)爾Adamic/Adar度量;其中,所述公共相鄰元素個(gè)數(shù)是指所述賬號組合中賬號 具有相同朋友的個(gè)數(shù),所述相同朋友的賬號在所述訓(xùn)練集中;所述Jaccard相似系數(shù)是指 所述賬號組合中賬號具有相同朋友的個(gè)數(shù)占所述賬號組合中賬號的所有朋友個(gè)數(shù)的比例; 所述Adamic/Adar度量是指所述賬號組合中賬號的相同朋友在各自社交網(wǎng)絡(luò)中的影響力。
[0010] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式 中,所述賬號組合中賬號發(fā)布信息的空間特征包括:所述賬號組合中所有賬號發(fā)布信息的 相同地點(diǎn)的個(gè)數(shù)、所述賬號組合中所有賬號發(fā)布信息的地點(diǎn)集合的余弦相似度以及所述賬 號組合中所有賬號發(fā)布信息的地點(diǎn)集合的平均距離。
[0011] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,所述賬號組合中賬號發(fā)布信息的時(shí)間特征包括:所述賬號組合中所有賬號發(fā)布信息的 相同時(shí)間段的個(gè)數(shù)和所述賬號組合中所有賬號發(fā)布信息的時(shí)間段集合的余弦相似度。
[0012] 結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式 中,所述賬號組合中賬號發(fā)布信息的文本特征包括:所述賬號組合中所有賬號發(fā)布信息的 詞袋向量的內(nèi)積和所述賬號組合中所有賬號發(fā)布信息的詞袋向量的余弦相似度。
[0013] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式 中,所述方法還包括:通過自然語言處理技術(shù)對所述測試集或訓(xùn)練集賬號組合中賬號發(fā)布 的信息進(jìn)行處理;利用詞頻-逆向文件頻率(TF-IDF)權(quán)重模型將所述經(jīng)過處理的信息生成 所述賬號的詞袋向量。
[0014] 結(jié)合第一方面、第一方面的第一種至第七種中任一種可能的實(shí)現(xiàn)方式,在第一方 面的第八種可能的實(shí)現(xiàn)方式中,所述通過關(guān)聯(lián)算法對所述測試集賬號組合的預(yù)測值或預(yù)測 值集合進(jìn)行計(jì)算,輸出所述計(jì)算出的測試集賬號組合的預(yù)測結(jié)果的步驟,包括:通過多網(wǎng)絡(luò) 定向MNA算法對所述測試集賬號組合的預(yù)測值或預(yù)測值集合進(jìn)行計(jì)算,輸出所述計(jì)算出的 測試集賬號組合的預(yù)測結(jié)果。
[0015] 結(jié)合第一方面的第八種可能的實(shí)現(xiàn)方式,在第一方面的第九種可能的實(shí)現(xiàn)方式 中,所述通過多網(wǎng)絡(luò)定向MNA算法對所述測試集賬號組合的預(yù)測值或預(yù)測值集合進(jìn)行計(jì) 算,輸出所述計(jì)算出的測試集賬號組合的預(yù)測結(jié)果的步驟,包括:在所述測試集賬號組合 中,對所述測試集的賬號所對應(yīng)的所有賬號組合的預(yù)測值或預(yù)測值集合按照預(yù)測值的大小 進(jìn)行排序,獲得所述賬號的預(yù)測值列表;若所述測試集賬號組合存在閉合賬號對,則所述閉 合賬號對所對應(yīng)的賬號屬于同一用戶,并輸出所述屬于同一用戶的閉合賬號對,其中,所述 閉合賬號對滿足的條件是:所述賬號ai預(yù)測值列表中最大的預(yù)測值對應(yīng)的測試集賬號組 合為(^,bp,且所述賬號h預(yù)測值列表中最大的預(yù)測值對應(yīng)的測試集賬號組合為(bp%)。
[0016]結(jié)合第一方面的第九種可能的實(shí)現(xiàn)方式,在第一方面的第十種可能的實(shí)現(xiàn)方式 中,所述在所述測試集賬號組合中,對所述測試集的賬號所對應(yīng)的所有賬號組合的預(yù)測值 或預(yù)測值集合按照預(yù)測值的大小進(jìn)行排序,獲得所述賬號的預(yù)測值列表的步驟之后,還包 括:若所述賬號%預(yù)測值列表中最大的預(yù)測值對應(yīng)的測試集賬號組合為(ai,bp,且所述賬 號h預(yù)測值列表中最大的預(yù)測值對應(yīng)的測試集賬號組合為(bpak),則比較所述測試集賬 號組合(^,bp的預(yù)測值和所述測試集賬號組合(bpak)的預(yù)測值的大小;若所述測試集賬 號組合(ai,bp的預(yù)測值小于所述測試集賬號組合(lvak)的預(yù)測值,則所述賬號ak和所述 賬號bj屬于同一用戶,所述賬號ai和所述賬號bj不屬于同一用戶,并輸出所述屬于同一用 戶的測試集賬號組合(lVak),若所述測試集賬號組合(ai,bp的預(yù)測值大于所述測試集賬 號組合(1^ak)的預(yù)測值,則所述賬號%和所述賬號h屬于同一用戶,所述賬號ak和所述 賬號bj不屬于同一用戶,并輸出所述屬于同一用戶的測試集賬號組合(apbj)。
[0017]第二方面,本發(fā)明提供一種在多個(gè)社交網(wǎng)絡(luò)中識別同一用戶的裝置,定義所述同 一用戶在同一社交網(wǎng)絡(luò)中只有一個(gè)賬號,賬號組合中賬號的個(gè)數(shù)等于社交網(wǎng)絡(luò)的個(gè)數(shù),所 述賬號組合中每個(gè)賬號分別來自不同的社交網(wǎng)絡(luò);所述
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1