文檔相似度計算方法及相似文檔全網檢索跟蹤方法
【專利摘要】本發(fā)明涉及一種文檔相似度計算方法及相似文檔全網檢索跟蹤方法。本發(fā)明的目的是提供一種文檔相似度計算方法及相似文檔全網檢索跟蹤方法。本發(fā)明的技術方案是:一種文檔相似度計算方法,其特征在于:S01、文檔分解:對原創(chuàng)文檔和目標文檔分別進行切詞處理,得到各自的分詞集合;S02、預處理與特征加權:利用TF?IDF技術對每個分詞計算權重,提取核心關鍵詞;利用Word2vec挖掘文檔中不同分詞之間的關聯程度,對每篇文檔進行語義分析;S03、向量空間模型與余弦相似度算法:利用向量空間中兩個向量夾角的余弦值作為衡量兩篇文檔的相似程度,余弦值在0~1之間,余弦值越大說明兩篇文檔越相似。本發(fā)明適用于新聞資訊轉載跟蹤與傳播力統計。
【專利說明】
文檔相似度計算方法及相似文檔全網檢索跟蹤方法
技術領域
[0001]本發(fā)明涉及一種文檔相似度計算方法及相似文檔全網檢索跟蹤方法。適用于新聞資訊轉載跟蹤與傳播力統計。
【背景技術】
[0002]傳統媒體作為新聞資訊的主要生產者,貢獻了80%以上的原創(chuàng)新聞,但是限于其傳播平臺的限制,原創(chuàng)文檔被大量的門戶及一些新媒體轉載,新媒體在轉載這些文檔過程中,實現了流量和影響力的倍增效果,同時也實現了較好的經濟效益,而作為原創(chuàng)文檔的作者,卻沒有從中得到利益。然而通過法律途徑解決版權問題的過程中,要去發(fā)現被轉載的文檔等同于大海撈針,需要消耗大量的人力,而且對取證也有難度。
[0003]同時,媒體也希望通過所有轉載他的媒體,分析其傳播力,目前媒體并沒有很好的辦法去統計其所有傳播路徑,只能靠人工去統計,這個統計量是十分巨大的。
[0004]目前,中國是世界上使用社交媒體比例最高的國家,平均每人每天有5.8小時的時間上網。在以前,大眾得知信息來源于電視、報紙、雜志和廣播,而今天大眾更多的是通過微博、微信、QQ、論壇等社交軟件獲得信息。截止今年第一季度末,新浪微博月活躍用戶達到2.6億,微信每月活躍用戶已達到5.49億。微博、微信成為碎片時間的最佳運用工具。
[0005]今天來看,在移動互聯網時代,有內容、形式、社交,而且是強關系社交,大眾媒體的影響力慢慢在下降,而新媒體的影響力在不斷地加深,這是移動互聯網的時代。
[0006]當每一個個體都具有傳播能力時,傳統的媒體結構就開始瓦解,消費者得知訊息的管道也不再大幅度地依賴大眾媒體,“自媒體”年代誕生。所以這是一個普通人可以創(chuàng)造奇跡的時代,也是消費者獲得主權的時代,所以也是大家尤其是媒體人機會最多的時代。
[0007]在自媒體快速發(fā)展的今天,針對自媒體個人的版權保護,更加顯得重要,由于自媒體勢單力薄,其對于自己的文檔的版權保護,沒有好的辦法。
【發(fā)明內容】
[0008]本發(fā)明要解決的技術問題是:針對上述存在的問題,提供一種文檔相似度計算方法及相似文檔全網檢索跟蹤方法,以更加準確的判斷兩篇文檔的相似程度,實現準確的全網跟蹤文檔的轉載情況,為版權保護打好基礎。
[0009]本發(fā)明所采用的技術方案是:一種文檔相似度計算方法,其特征在于:
[0010]S01、文檔分解:對原創(chuàng)文檔和目標文檔分別進行切詞處理,得到各自的分詞集合;
[0011]S02、預處理與特征加權:
[0012]利用TF-1DF技術對每個分詞計算權重,提取核心關鍵詞;
[0013]利用Word2VeC挖掘文檔中不同分詞之間的關聯程度,對每篇文檔進行語義分析;
[0014]S03、向量空間模型與余弦相似度算法:
[0015]把原創(chuàng)文檔和目標文檔簡化為兩個以關鍵詞權重為分量的N維向量;
[0016]文檔余弦相似度算法是基于向量模型,利用向量空間中兩個向量夾角的余弦值作為衡量兩篇文檔的相似程度,余弦值在O?I之間,余弦值越大說明兩篇文檔越相似。
[0017]步驟SOI包括
[0018]數據準備,通過ETL數據清洗系統清洗文檔的干擾信息,并對文檔進行結構化處理,分解成最小單位結構;
[0019]基礎建設,以ElasticSearch搜索引擎為基礎構件建設全文索引,并采用中文分詞庫中的細顆粒度分詞創(chuàng)建索引。
[0020]步驟S02中利用TF-1DF技術按照逆文檔詞庫中的的詞語刪除文檔中對文本內容識別意義不大但出現頻率很高的分詞。
[0021 ] 一種相似文檔全網檢索跟蹤方法,其特征在于:
[0022]a、設定檢索范圍;
[0023]b、檢索條件設定,抽取原創(chuàng)文檔中TF-1DF中權重值最高的N個核心關鍵詞,用一定的匹配率、基于ES全文檢索引擎進行全庫檢索;
[0024]C、按照關鍵詞與文檔相關度權重值做降排序,將檢索到的文檔按照關鍵詞與文檔相關度權重數值做降序排序;
[0025]d、利用最高權重值文檔對檢索得到的每篇文檔進行逐一對比,應用文檔相似度計算方法計算兩篇文檔的相似度;
[0026]e、相似度對比結果是否高于N%,若高于N%,則判定兩篇文檔相同,否則判定兩篇為不同的文檔。
[0027]步驟a包括設定被檢索文檔發(fā)布的時間范圍、發(fā)布的載體,以及被檢索文檔的字數、類型。
[0028]本發(fā)明的有益效果是:本發(fā)明采用TF-1DF+word2VeC技術使得對文檔相似度處理上得到更精準的效果,從而使得版權跟蹤與傳播力的分析統計更加精準與貼近實際情況。本發(fā)明把原創(chuàng)文檔和目標文檔簡化為兩個以關鍵詞權重為分量的N維向量,利用向量空間中兩個向量夾角的余弦值作為衡量兩篇文檔的相似程度,從未更加精準的判斷兩篇文檔的相似程度。本發(fā)明有條件的設定檢索范圍,通過ETL數據清洗系統清洗干擾信息,提高檢索效率。
【附圖說明】
[0029]圖1為實施例中文檔相似度計算方法的系統架構圖。
[0030]圖2為實施例中預處理與特征加權流程圖。
[0031]圖3為實施例中向量空間模型與余弦相似度算法關系圖。
[0032]圖4為實施例中相似文檔全網檢索跟蹤方法的流程圖。
【具體實施方式】
[0033]圖1為本實施例中文檔相似度計算方法的系統架構圖。本實施例中文檔相似度計算方法包括:
[0034](I)數據準備-ETL
[0035]實時采集全網媒體數據,通過“ETL數據清洗系統”清洗干擾信息,數據得到純凈化的同時對新聞稿件進行結構化處理,分解成最小單位的結構,得到分詞集合,稱之為數據原子化過程。
[0036](2)基礎建設-ElasticSearch全文索引+中文分詞
[0037]采用ElasticSearch搜索引擎作為整套系統的基礎構件,后期的算法都是在ES的基礎之上。ElasticSearch是一個基于Lucene的分布式多用戶全文搜索引擎,分布式存儲的可擴展性可以有效的解決每天海量數據匯聚的存儲問題,同時ElasticSearch又是一個接近實時的搜索平臺,在實際應用中計算得到從索引一篇稿件開始大概耗時I秒左右時間就能被搜索到,這樣在后期傳播路徑分析中會能得到高效的應用,同時也可以利用分布式運算的特性,結合增加硬件設備提高運算速度,提高檢索性能。
[0038]在建設全文索引的過程中,采用中文分詞庫中的細顆粒度分詞創(chuàng)建索引,以保證文檔關鍵詞的分解完整度。
[0039](3)預處理與特征加權-TF_IDF+word2vec
[0040]圖2為本實施例中預處理與特征加權流程圖。TF-1DF是一種用于信息檢索不數據挖掘的加權技術。用以評估一字詞對于一個文檔集戒一個逆文檔集中的其中一份文檔的重要程度,字詞的權重值隨著它在文檔中出現的次數成正比增加,但同時會隨著它在逆文檔中出現的頻率成反比下降。基于TF-1DF技術,按照逆文檔詞庫中的的詞語將文檔中對文本內容識別意義不大但出現頻率很高的詞、符號、標點及亂碼等刪除。
[0041]通過分解每篇文檔的關鍵詞,并統計每個詞的詞頻,利用TF-1DF技術針對每個分詞計算權重,提取核心關鍵詞。
[0042]TF-1DF是一種分析詞不文檔之間關聯程度的計算方法,主要應用在提高從海量數據中命中需要進行統計分析相似文檔的范圍,為后續(xù)轉載分析跟蹤做準備。
[0043]考慮到余弦相似度算法不具備處理同類同義詞匯的能力,本實施例在預處理環(huán)節(jié)預先引用Word2vec算法針對每篇文檔進行語義分析,以去除后期統計分析中的語義干擾。Word2vec算法是一種將詞表征作為向量數值的高效算法,其利用深度孥習的思想,通過訓練,把對文檔關鍵詞的處理簡化為向量空間中的向量運算,并且通過挖掘文檔中不同關鍵詞之間的關聯程度,提高語義上的準確度。
[0044](4)向量空間模型與余弦相似度算法
[0045]圖3為本實施例中向量空間模型與余弦相似度算法關系圖。將原創(chuàng)文檔和目標文檔簡化為兩個以關鍵詞權重為分量的N維向量,然后利用向量模型進行余弦相似度計算。文檔余弦相似度算法是基于向量的,利用向量空間中兩個向量夾角的余弦值作為衡量兩篇文檔的相似程度,注重兩個向量在方向上的差異,余弦值在O?I之間,數值越大說明兩篇文檔越相似。
[0046]如圖4所示,本實施例提供一種相似文檔全網檢索跟蹤方法,該方法的具體實施步驟如下:
[0047]a、設定檢索范圍;
[0048]a01、設置時間范圍:如當前時間的3天(72小時)內發(fā)布的文檔;
[0049]a02、設置文檔范圍:選擇檢索的載體,如報紙,網站,微信等;
[0050]a03、文檔選擇條件:設定被檢索文檔的字數、類型要求,如文章字數> = 200;排除文章類型:論壇、特殊。
[0051 ] b、檢索條件設定:抽取原創(chuàng)文檔中TF-1DF中權重值最高的N個核心關鍵詞,用一定的匹配率、基于ES全文檢索引擎進行全庫檢索;
[0052]C、按照關鍵詞與文檔相關度權重值做降排序:檢索到的文檔按照關鍵詞與文檔相關度權重數值做降序排序;
[0053]d、利用最高權重值文檔對檢索得到的每篇文檔進行逐一對比:應用本實施例的文檔相似度計算方法計算最高權重值文檔與另一文檔的相似度;
[0054]e、相似度對比結果是否高于N%,若高于N%,則判定兩篇文檔相同;否則判定兩篇為不同的文檔。
【主權項】
1.一種文檔相似度計算方法,其特征在于: 501、文檔分解:對原創(chuàng)文檔和目標文檔分別進行切詞處理,得到各自的分詞集合; 502、預處理與特征加權: 利用TF-1DF技術對每個分詞計算權重,提取核心關鍵詞; 利用Word2vec挖掘文檔中不同分詞之間的關聯程度,對每篇文檔進行語義分析; 503、向量空間模型與余弦相似度算法: 把原創(chuàng)文檔和目標文檔簡化為兩個以關鍵詞權重為分量的N維向量; 文檔余弦相似度算法是基于向量模型,利用向量空間中兩個向量夾角的余弦值作為衡量兩篇文章的相似程度,余弦值在O?I之間,余弦值越大說明兩篇文檔越相似。2.根據權利要求1所述的文檔相似度計算方法,其特征在于:步驟SOl包括 數據準備,通過ETL數據清洗系統清洗文檔的干擾信息,并對文檔進行結構化處理,分解成最小單位結構; 基礎建設,以ElasticSearch搜索引擎為基礎構件建設全文索引,并采用中文分詞庫中的細顆粒度分詞創(chuàng)建索引。3.根據權利要求1所述的文檔相似度計算方法,其特征在于:步驟S02中利用TF-1DF技術按照逆文檔詞庫中的的詞語刪除文檔中對文本內容識別意義不大但出現頻率很高的分Τ.κ| ο4.一種相似文檔全網檢索跟蹤方法,其特征在于: a、設定檢索范圍; b、檢索條件設定,抽取原創(chuàng)文檔中TF-1DF中權重值最高的N個核心關鍵詞,用一定的匹配率、基于ES全文檢索引擎進行全庫檢索; C、照關鍵詞與文檔相關度權重值做降排序,將檢索到的文檔按照關鍵詞與文檔相關度權重數值做降序排序; d、利用最高權重值文檔對檢索得到的每篇文檔進行逐一對比,應用權利要求1?3任意一項所述的文檔相似度計算方法計算兩篇文檔的相似度; e、相似度對比結果是否高于N%,若高于N%,則判定兩篇文檔相同,否則判定兩篇為不同的文檔。5.根據權利要求4所述的相似文檔全網檢索跟蹤方法,其特征在于:步驟SOl包括設定被檢索文檔發(fā)布的時間范圍、發(fā)布的載體,以及被檢索文檔的字數、類型。
【文檔編號】G06F17/27GK106095737SQ201610398902
【公開日】2016年11月9日
【申請日】2016年6月7日
【發(fā)明人】姚洲鵬
【申請人】杭州凡聞科技有限公司