基于搜索詞的數(shù)據(jù)挖掘方法

文檔序號(hào)：9751008閱讀：759來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于搜索詞的數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)，特別涉及一種基于搜索詞的數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]近年來移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)迅猛發(fā)展，用戶在網(wǎng)上可獲取的消息越來越多，互聯(lián)網(wǎng)中有海量的信息內(nèi)容，用戶為了找到自己真正感興趣和需要的信息，不得不花費(fèi)巨大的時(shí)間和精力去篩選這些信息，甚至可能還會(huì)由于搜索不當(dāng)導(dǎo)致用戶錯(cuò)過或漏選真正感興趣的信息。因此需要一種根據(jù)自身在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好，能夠自動(dòng)為用戶提供用戶需要的信息的服務(wù)。比如網(wǎng)絡(luò)商家，當(dāng)商家在網(wǎng)絡(luò)中發(fā)布自己的商品信息，而對(duì)此感興趣的用戶又錯(cuò)過了瀏覽該商品的機(jī)會(huì)，商家就喪失了一次可能進(jìn)行商品交易的機(jī)會(huì)，因此商家也需要網(wǎng)絡(luò)能夠提供一種自動(dòng)將其發(fā)布的商品信息提供給對(duì)商品可能感興趣的用戶的服務(wù)。傳統(tǒng)的技術(shù)方案對(duì)用戶在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好進(jìn)行分析，實(shí)現(xiàn)信息推送。而只是記錄了用戶的上網(wǎng)記錄，訪問了哪些服務(wù)器的哪些頁面。這些信息不能很明顯地展示用戶的興趣愛好。而通過第三方網(wǎng)站跟蹤用戶的用戶識(shí)別方法只考慮了商家的需求，沒有考慮用戶的信息安全;根據(jù)用戶上網(wǎng)的行為模式判斷新會(huì)話屬于哪個(gè)用戶的方法只是分析了動(dòng)態(tài)的會(huì)話，而且當(dāng)數(shù)據(jù)量龐大時(shí)，由于缺少識(shí)別用戶的信息，僅依靠用戶的行為模式，不能進(jìn)行用戶識(shí)別。

【發(fā)明內(nèi)容】

[0003]為解決上述現(xiàn)有技術(shù)所存在的問題，本發(fā)明提出了一種基于搜索詞的數(shù)據(jù)挖掘方法，包括:
[0004]根據(jù)用戶搜索的關(guān)鍵詞，通過分詞提取特征關(guān)鍵詞;對(duì)分詞結(jié)果進(jìn)行語義確定，得到表示每個(gè)用戶的特征的詞語，并根據(jù)用戶興趣特征挖掘相似特征用戶。
[0005]優(yōu)選地，所述根據(jù)用戶搜索的關(guān)鍵詞，通過分詞提取特征關(guān)鍵詞，進(jìn)一步包括:
[0006]通過對(duì)日志的檢索，得到搜索內(nèi)容在URL字段中所在的位置，按照規(guī)則表將每一個(gè)用戶的所有日志的URL字段中的搜索內(nèi)容提取出來，以獲取搜索關(guān)鍵詞，對(duì)用戶興趣特征文本進(jìn)行分詞，并進(jìn)行詞性標(biāo)注；
[0007]所述對(duì)分詞結(jié)果進(jìn)行語義確定，得到表示每個(gè)用戶的特征的詞語，進(jìn)一步包括:
[0008]計(jì)算關(guān)鍵詞的每一個(gè)語義與該詞上下文各詞語義的語義近似度，然后根據(jù)語義近似度值所反映出來的語義之間的關(guān)聯(lián)關(guān)系，得到關(guān)鍵詞在上下文中的語義;假設(shè)關(guān)鍵詞W存在η個(gè)語義h-kn，該關(guān)鍵詞W處于一個(gè)文本中，要找出W在該文本中的語義，首先計(jì)算關(guān)鍵詞W的各個(gè)語義與這一文本中其他詞匯的各個(gè)語義的語義近似度的值SinKk1,^)，其中^表示文本中任意詞語的任一語義，然后根據(jù)這些語義近似度的值判斷出W在這一文本的語義；
[0009]定義基于語義近似度值的語義關(guān)系即語義關(guān)聯(lián)度:取關(guān)鍵詞W所在搜索關(guān)鍵詞的分詞中的前一個(gè)實(shí)詞Wl和后一個(gè)實(shí)詞W2，若關(guān)鍵詞W處于第一位，則只取W2 ；若關(guān)鍵詞處于最末，則只取1;若W所在的搜索關(guān)鍵詞的分詞結(jié)果只有W，則取其前一個(gè)搜索關(guān)鍵詞的最后一個(gè)分詞和后一個(gè)搜索關(guān)鍵詞的第一個(gè)分詞；
[0010]確定以下語義確定規(guī)則為:用Sl1表示取語義近似度值最大的語義，即表現(xiàn)為語義與上下文中出現(xiàn)的語義之間相似度最大，即該關(guān)鍵詞在該上下文中可能的語義為;用
321表示語義1^與上下文求得的語義近似度最大值出現(xiàn)的次數(shù)最多，用S3,表示語義1^與上下文求得的語義近似度最大值大于某一固定閾值次數(shù)最多，如果1^滿足上述任意兩個(gè)或兩個(gè)以上的規(guī)則，則按照語義關(guān)聯(lián)度計(jì)算的綜合結(jié)果，將h確定為該關(guān)鍵詞在該上下文中的語義；
[0011]在對(duì)關(guān)鍵詞進(jìn)行語義確定時(shí)，將該關(guān)鍵詞所在的搜索內(nèi)容作為關(guān)鍵詞所在的句；而該用戶在同一會(huì)話下的搜索內(nèi)容，以及在與該會(huì)話相鄰的時(shí)間段內(nèi)產(chǎn)生的會(huì)話中的搜索內(nèi)容，作為該關(guān)鍵詞所在句的段;對(duì)于從該用戶所有日志中提取的搜索內(nèi)容，則組合起來作為該關(guān)鍵詞所在的文本，關(guān)鍵詞的語義確定過程如下:
[0012]I)對(duì)于任一個(gè)用戶i，將從該用戶的日志的URL中提取的搜索關(guān)鍵詞組合成一個(gè)段ti；
[0013]2)對(duì)于從搜索關(guān)鍵詞中通過分詞提取的表現(xiàn)用戶興趣特征的實(shí)詞查詢對(duì)其所標(biāo)注的關(guān)鍵詞的詞性，如果該詞性的語義多于I個(gè)，則取出具有相同詞性標(biāo)注的所有語義，作為語義確定運(yùn)算的輸入；
[0014]3)分別計(jì)算該關(guān)鍵詞各語義的語義關(guān)聯(lián)度值，按照上述語義確定規(guī)則分別計(jì)算該關(guān)鍵詞可能的語義；
[0015]4)如果識(shí)別語義成功，則算法結(jié)束;否則通知用戶無法識(shí)別待語義確定詞匯詞義，算法結(jié)束，得到表現(xiàn)用戶興趣特征的實(shí)詞記錄格式為:Record =〈User ID，Key，Sem，Cl s>，其中Sem字段為該詞的語義，Cls為該詞的所屬分類。
[0016]本發(fā)明相比現(xiàn)有技術(shù)，具有以下優(yōu)點(diǎn):
[0017]本發(fā)明提出了一種基于搜索詞的數(shù)據(jù)挖掘方法，通過對(duì)獨(dú)立用戶行為進(jìn)行用戶識(shí)另IJ，在識(shí)別過程中展示了用戶的興趣愛好，實(shí)現(xiàn)了針對(duì)性的有價(jià)值信息推送。。
【附圖說明】
[0018]圖1是根據(jù)本發(fā)明實(shí)施例的基于搜索詞的數(shù)據(jù)挖掘方法的流程圖。
【具體實(shí)施方式】
[0019]下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合這樣的實(shí)施例描述本發(fā)明，但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求書限定，并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié)，并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0020]本發(fā)明的一方面提供了一種基于搜索詞的數(shù)據(jù)挖掘方法。圖1是根據(jù)本發(fā)明實(shí)施例的基于搜索詞的數(shù)據(jù)挖掘方法流程圖。
[0021]本發(fā)明選擇在云計(jì)算平臺(tái)上實(shí)現(xiàn)。云平臺(tái)整體架構(gòu)由用戶識(shí)別模塊和興趣分析模塊兩部分組成。用戶識(shí)別模塊從日志數(shù)據(jù)中識(shí)別出獨(dú)立會(huì)話，并且將這些數(shù)據(jù)按照用戶聚類，從而識(shí)別出用戶，為下一步的用戶興趣特征模塊提供數(shù)據(jù)。興趣分析模塊在用戶識(shí)別的基礎(chǔ)上，對(duì)數(shù)據(jù)進(jìn)行提取、分析，進(jìn)一步找出用戶興趣特征，構(gòu)建特征分類庫，并最終找出屬于每一個(gè)分類的用戶，即相似特征用戶，為將來的推薦提供有用信息。
[0022]用戶識(shí)別模塊由數(shù)據(jù)清理、會(huì)話識(shí)別、客戶端緩存數(shù)據(jù)提取和用戶識(shí)別四個(gè)子模塊組成。數(shù)據(jù)清理子模塊是對(duì)日志數(shù)據(jù)中一些冗余和無效等影響存儲(chǔ)效率和分析效率的數(shù)據(jù)進(jìn)行刪除，得到無冗余的日志。會(huì)話識(shí)別子模塊是根據(jù)日志記錄中的時(shí)刻和URL等字段，對(duì)日志進(jìn)行分析，找到屬于同一個(gè)會(huì)話的日志，并對(duì)其進(jìn)行聚類和標(biāo)識(shí)?？蛻舳司彺鏀?shù)據(jù)提取子模塊對(duì)每個(gè)會(huì)話中客戶端緩存數(shù)據(jù)非空的日志進(jìn)行Name字段的提取，該字段是用戶登錄的一些網(wǎng)站的用戶名。用戶識(shí)別子模塊是在上述數(shù)據(jù)清理、會(huì)話識(shí)別和客戶端緩存數(shù)據(jù)提取的基礎(chǔ)上，根據(jù)形成的日志格式和內(nèi)容進(jìn)行用戶識(shí)別分析，將屬于同一用戶的會(huì)話聚類，識(shí)別出每一個(gè)上網(wǎng)的用戶，方便后續(xù)的興趣分析模塊使用。
[0023]興趣分析模塊包括關(guān)鍵詞提取、興趣特征提取和相似特征用戶挖掘三個(gè)子模塊。關(guān)鍵詞提取子模塊是對(duì)日志的URL進(jìn)行搜索關(guān)鍵詞提取，并對(duì)提取的關(guān)鍵詞分詞。興趣特征提取子模塊是對(duì)關(guān)鍵詞提取子模塊獲取的分詞進(jìn)行語義確定，獲取每個(gè)詞語的詞義和分類，并對(duì)用戶的相同語義和分類下的詞語進(jìn)行詞頻統(tǒng)計(jì)，從而得到用戶興趣特征。相似特征用戶挖掘子模塊是通過構(gòu)建特征分類庫，從而找出屬于分類庫中每一個(gè)分類的用戶，實(shí)現(xiàn)對(duì)用戶的聚類，實(shí)現(xiàn)特定興趣特征用戶的針對(duì)性推薦。
[0024]本發(fā)明采用了聚類進(jìn)行用戶識(shí)別，將所有對(duì)于識(shí)別出有用的字段都納入了判斷用戶的比較范圍，識(shí)別出了用戶，并對(duì)日志進(jìn)行了標(biāo)記，而且將日志按用戶進(jìn)行了分類;采用基于分類詞庫的語義確定方法，判斷其在不同上下文的環(huán)境中的不同的語義;在挖掘相似用戶時(shí)，通過構(gòu)建一個(gè)分類庫，提取表示用戶興趣特征詞語的分類;對(duì)上述過程在云計(jì)算平臺(tái)上進(jìn)行了實(shí)現(xiàn)，將海量的互聯(lián)網(wǎng)日志數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)中，然后對(duì)研究內(nèi)容在MapReduce框架上進(jìn)行實(shí)現(xiàn)。
[0025]在用戶識(shí)別前，首先進(jìn)行數(shù)據(jù)清理，刪除Web日志中無關(guān)的數(shù)據(jù)，包括:1)訪問的文件是圖片、框架等文件;2)用戶請(qǐng)求訪問失敗的記錄。這些數(shù)據(jù)對(duì)于分析和識(shí)別真實(shí)用戶在網(wǎng)站的訪問情況并無關(guān)系，屬于干擾信息，因此進(jìn)行刪除。經(jīng)過數(shù)據(jù)清理后的日志有八個(gè)字段，可以表示為:
[0026]Record =〈Source，ACC，Time，URL,Reference，Des，Agent，cke>
[0027]其中，Source為用戶登錄時(shí)主機(jī)的IP地址;ACC為用戶的賬戶；Time是用戶訪問這一 URL的時(shí)刻，即生成這一條日志的時(shí)刻;URL則是

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董政;吳文杰;陳露;李學(xué)生;
技術(shù)所有人：成都陌云科技有限公司;
我是此專利的發(fā)明人

上一篇：一種摘要搜索方法和裝置的制造方法
上一篇：基于情感傾向的產(chǎn)品評(píng)論主題搜索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)挖掘方法相關(guān)技術(shù)

數(shù)據(jù)挖掘的方法相關(guān)技術(shù)

數(shù)據(jù)挖掘中的研究方法相關(guān)技術(shù)

數(shù)據(jù)挖掘方法與模型相關(guān)技術(shù)

數(shù)據(jù)挖掘分析方法相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于搜索詞的數(shù)據(jù)挖掘方法