午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于搜索詞的數(shù)據(jù)挖掘方法

文檔序號(hào):9751008閱讀:759來源:國知局
基于搜索詞的數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù),特別涉及一種基于搜索詞的數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]近年來移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)迅猛發(fā)展,用戶在網(wǎng)上可獲取的消息越來越多,互聯(lián)網(wǎng)中有海量的信息內(nèi)容,用戶為了找到自己真正感興趣和需要的信息,不得不花費(fèi)巨大的時(shí)間和精力去篩選這些信息,甚至可能還會(huì)由于搜索不當(dāng)導(dǎo)致用戶錯(cuò)過或漏選真正感興趣的信息。因此需要一種根據(jù)自身在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好,能夠自動(dòng)為用戶提供用戶需要的信息的服務(wù)。比如網(wǎng)絡(luò)商家,當(dāng)商家在網(wǎng)絡(luò)中發(fā)布自己的商品信息,而對(duì)此感興趣的用戶又錯(cuò)過了瀏覽該商品的機(jī)會(huì),商家就喪失了一次可能進(jìn)行商品交易的機(jī)會(huì),因此商家也需要網(wǎng)絡(luò)能夠提供一種自動(dòng)將其發(fā)布的商品信息提供給對(duì)商品可能感興趣的用戶的服務(wù)。傳統(tǒng)的技術(shù)方案對(duì)用戶在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好進(jìn)行分析,實(shí)現(xiàn)信息推送。而只是記錄了用戶的上網(wǎng)記錄,訪問了哪些服務(wù)器的哪些頁面。這些信息不能很明顯地展示用戶的興趣愛好。而通過第三方網(wǎng)站跟蹤用戶的用戶識(shí)別方法只考慮了商家的需求,沒有考慮用戶的信息安全;根據(jù)用戶上網(wǎng)的行為模式判斷新會(huì)話屬于哪個(gè)用戶的方法只是分析了動(dòng)態(tài)的會(huì)話,而且當(dāng)數(shù)據(jù)量龐大時(shí),由于缺少識(shí)別用戶的信息,僅依靠用戶的行為模式,不能進(jìn)行用戶識(shí)別。

【發(fā)明內(nèi)容】

[0003]為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于搜索詞的數(shù)據(jù)挖掘方法,包括:
[0004]根據(jù)用戶搜索的關(guān)鍵詞,通過分詞提取特征關(guān)鍵詞;對(duì)分詞結(jié)果進(jìn)行語義確定,得到表示每個(gè)用戶的特征的詞語,并根據(jù)用戶興趣特征挖掘相似特征用戶。
[0005]優(yōu)選地,所述根據(jù)用戶搜索的關(guān)鍵詞,通過分詞提取特征關(guān)鍵詞,進(jìn)一步包括:
[0006]通過對(duì)日志的檢索,得到搜索內(nèi)容在URL字段中所在的位置,按照規(guī)則表將每一個(gè)用戶的所有日志的URL字段中的搜索內(nèi)容提取出來,以獲取搜索關(guān)鍵詞,對(duì)用戶興趣特征文本進(jìn)行分詞,并進(jìn)行詞性標(biāo)注;
[0007]所述對(duì)分詞結(jié)果進(jìn)行語義確定,得到表示每個(gè)用戶的特征的詞語,進(jìn)一步包括:
[0008]計(jì)算關(guān)鍵詞的每一個(gè)語義與該詞上下文各詞語義的語義近似度,然后根據(jù)語義近似度值所反映出來的語義之間的關(guān)聯(lián)關(guān)系,得到關(guān)鍵詞在上下文中的語義;假設(shè)關(guān)鍵詞W存在η個(gè)語義h-kn,該關(guān)鍵詞W處于一個(gè)文本中,要找出W在該文本中的語義,首先計(jì)算關(guān)鍵詞W的各個(gè)語義與這一文本中其他詞匯的各個(gè)語義的語義近似度的值SinKk1,^),其中^表示文本中任意詞語的任一語義,然后根據(jù)這些語義近似度的值判斷出W在這一文本的語義;
[0009]定義基于語義近似度值的語義關(guān)系即語義關(guān)聯(lián)度:取關(guān)鍵詞W所在搜索關(guān)鍵詞的分詞中的前一個(gè)實(shí)詞Wl和后一個(gè)實(shí)詞W2,若關(guān)鍵詞W處于第一位,則只取W2 ;若關(guān)鍵詞處于最末,則只取1;若W所在的搜索關(guān)鍵詞的分詞結(jié)果只有W,則取其前一個(gè)搜索關(guān)鍵詞的最后一個(gè)分詞和后一個(gè)搜索關(guān)鍵詞的第一個(gè)分詞;
[0010]確定以下語義確定規(guī)則為:用Sl1表示取語義近似度值最大的語義,即表現(xiàn)為語義與上下文中出現(xiàn)的語義之間相似度最大,即該關(guān)鍵詞在該上下文中可能的語義為;用
321表示語義1^與上下文求得的語義近似度最大值出現(xiàn)的次數(shù)最多,用S3,表示語義1^與上下文求得的語義近似度最大值大于某一固定閾值次數(shù)最多,如果1^滿足上述任意兩個(gè)或兩個(gè)以上的規(guī)則,則按照語義關(guān)聯(lián)度計(jì)算的綜合結(jié)果,將h確定為該關(guān)鍵詞在該上下文中的語義;
[0011]在對(duì)關(guān)鍵詞進(jìn)行語義確定時(shí),將該關(guān)鍵詞所在的搜索內(nèi)容作為關(guān)鍵詞所在的句;而該用戶在同一會(huì)話下的搜索內(nèi)容,以及在與該會(huì)話相鄰的時(shí)間段內(nèi)產(chǎn)生的會(huì)話中的搜索內(nèi)容,作為該關(guān)鍵詞所在句的段;對(duì)于從該用戶所有日志中提取的搜索內(nèi)容,則組合起來作為該關(guān)鍵詞所在的文本,關(guān)鍵詞的語義確定過程如下:
[0012]I)對(duì)于任一個(gè)用戶i,將從該用戶的日志的URL中提取的搜索關(guān)鍵詞組合成一個(gè)段ti;
[0013]2)對(duì)于從搜索關(guān)鍵詞中通過分詞提取的表現(xiàn)用戶興趣特征的實(shí)詞查詢對(duì)其所標(biāo)注的關(guān)鍵詞的詞性,如果該詞性的語義多于I個(gè),則取出具有相同詞性標(biāo)注的所有語義,作為語義確定運(yùn)算的輸入;
[0014]3)分別計(jì)算該關(guān)鍵詞各語義的語義關(guān)聯(lián)度值,按照上述語義確定規(guī)則分別計(jì)算該關(guān)鍵詞可能的語義;
[0015]4)如果識(shí)別語義成功,則算法結(jié)束;否則通知用戶無法識(shí)別待語義確定詞匯詞義,算法結(jié)束,得到表現(xiàn)用戶興趣特征的實(shí)詞記錄格式為:Record =〈User ID,Key,Sem,Cl s>,其中Sem字段為該詞的語義,Cls為該詞的所屬分類。
[0016]本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0017]本發(fā)明提出了一種基于搜索詞的數(shù)據(jù)挖掘方法,通過對(duì)獨(dú)立用戶行為進(jìn)行用戶識(shí)另IJ,在識(shí)別過程中展示了用戶的興趣愛好,實(shí)現(xiàn)了針對(duì)性的有價(jià)值信息推送。。
【附圖說明】
[0018]圖1是根據(jù)本發(fā)明實(shí)施例的基于搜索詞的數(shù)據(jù)挖掘方法的流程圖。
【具體實(shí)施方式】
[0019]下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0020]本發(fā)明的一方面提供了一種基于搜索詞的數(shù)據(jù)挖掘方法。圖1是根據(jù)本發(fā)明實(shí)施例的基于搜索詞的數(shù)據(jù)挖掘方法流程圖。
[0021]本發(fā)明選擇在云計(jì)算平臺(tái)上實(shí)現(xiàn)。云平臺(tái)整體架構(gòu)由用戶識(shí)別模塊和興趣分析模塊兩部分組成。用戶識(shí)別模塊從日志數(shù)據(jù)中識(shí)別出獨(dú)立會(huì)話,并且將這些數(shù)據(jù)按照用戶聚類,從而識(shí)別出用戶,為下一步的用戶興趣特征模塊提供數(shù)據(jù)。興趣分析模塊在用戶識(shí)別的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行提取、分析,進(jìn)一步找出用戶興趣特征,構(gòu)建特征分類庫,并最終找出屬于每一個(gè)分類的用戶,即相似特征用戶,為將來的推薦提供有用信息。
[0022]用戶識(shí)別模塊由數(shù)據(jù)清理、會(huì)話識(shí)別、客戶端緩存數(shù)據(jù)提取和用戶識(shí)別四個(gè)子模塊組成。數(shù)據(jù)清理子模塊是對(duì)日志數(shù)據(jù)中一些冗余和無效等影響存儲(chǔ)效率和分析效率的數(shù)據(jù)進(jìn)行刪除,得到無冗余的日志。會(huì)話識(shí)別子模塊是根據(jù)日志記錄中的時(shí)刻和URL等字段,對(duì)日志進(jìn)行分析,找到屬于同一個(gè)會(huì)話的日志,并對(duì)其進(jìn)行聚類和標(biāo)識(shí)??蛻舳司彺鏀?shù)據(jù)提取子模塊對(duì)每個(gè)會(huì)話中客戶端緩存數(shù)據(jù)非空的日志進(jìn)行Name字段的提取,該字段是用戶登錄的一些網(wǎng)站的用戶名。用戶識(shí)別子模塊是在上述數(shù)據(jù)清理、會(huì)話識(shí)別和客戶端緩存數(shù)據(jù)提取的基礎(chǔ)上,根據(jù)形成的日志格式和內(nèi)容進(jìn)行用戶識(shí)別分析,將屬于同一用戶的會(huì)話聚類,識(shí)別出每一個(gè)上網(wǎng)的用戶,方便后續(xù)的興趣分析模塊使用。
[0023]興趣分析模塊包括關(guān)鍵詞提取、興趣特征提取和相似特征用戶挖掘三個(gè)子模塊。關(guān)鍵詞提取子模塊是對(duì)日志的URL進(jìn)行搜索關(guān)鍵詞提取,并對(duì)提取的關(guān)鍵詞分詞。興趣特征提取子模塊是對(duì)關(guān)鍵詞提取子模塊獲取的分詞進(jìn)行語義確定,獲取每個(gè)詞語的詞義和分類,并對(duì)用戶的相同語義和分類下的詞語進(jìn)行詞頻統(tǒng)計(jì),從而得到用戶興趣特征。相似特征用戶挖掘子模塊是通過構(gòu)建特征分類庫,從而找出屬于分類庫中每一個(gè)分類的用戶,實(shí)現(xiàn)對(duì)用戶的聚類,實(shí)現(xiàn)特定興趣特征用戶的針對(duì)性推薦。
[0024]本發(fā)明采用了聚類進(jìn)行用戶識(shí)別,將所有對(duì)于識(shí)別出有用的字段都納入了判斷用戶的比較范圍,識(shí)別出了用戶,并對(duì)日志進(jìn)行了標(biāo)記,而且將日志按用戶進(jìn)行了分類;采用基于分類詞庫的語義確定方法,判斷其在不同上下文的環(huán)境中的不同的語義;在挖掘相似用戶時(shí),通過構(gòu)建一個(gè)分類庫,提取表示用戶興趣特征詞語的分類;對(duì)上述過程在云計(jì)算平臺(tái)上進(jìn)行了實(shí)現(xiàn),將海量的互聯(lián)網(wǎng)日志數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中,然后對(duì)研究內(nèi)容在MapReduce框架上進(jìn)行實(shí)現(xiàn)。
[0025]在用戶識(shí)別前,首先進(jìn)行數(shù)據(jù)清理,刪除Web日志中無關(guān)的數(shù)據(jù),包括:1)訪問的文件是圖片、框架等文件;2)用戶請(qǐng)求訪問失敗的記錄。這些數(shù)據(jù)對(duì)于分析和識(shí)別真實(shí)用戶在網(wǎng)站的訪問情況并無關(guān)系,屬于干擾信息,因此進(jìn)行刪除。經(jīng)過數(shù)據(jù)清理后的日志有八個(gè)字段,可以表示為:
[0026]Record =〈Source,ACC,Time,URL,Reference,Des,Agent,cke>
[0027]其中,Source為用戶登錄時(shí)主機(jī)的IP地址;ACC為用戶的賬戶;Time是用戶訪問這一 URL的時(shí)刻,即生成這一條日志的時(shí)刻;URL則是
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1