本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種特定內(nèi)容的去除方法和裝置。
背景技術(shù):
伴隨自媒體的發(fā)展,個性化閱讀產(chǎn)品越來越豐富。目前個性化閱讀產(chǎn)品大多是內(nèi)容聚合類的閱讀產(chǎn)品,比如,可以在即時通訊應(yīng)用中集成內(nèi)容聚合器來獲取豐富的文章。
即時通訊應(yīng)用中的內(nèi)容聚合器可以聚合即時通訊公眾號發(fā)送的文章。內(nèi)容聚合器對應(yīng)的內(nèi)容聚合服務(wù)器可以向用戶推送文章時,比如會根據(jù)用戶訂閱的公眾號信息、用戶興趣等向用戶推送相應(yīng)的文章。
然而,目前內(nèi)容聚合服務(wù)器推送的文章包含大量的惡意內(nèi)容(比如廣告內(nèi)容等),降低了用戶閱讀體驗,例如,參考圖1a和圖1b,在文章內(nèi)容中包含了廣告文字和廣告圖片。因此,為了提升用戶閱讀體驗,需要對文章中的惡意內(nèi)容進(jìn)行去除。目前惡意內(nèi)容的去除方式主要依靠圖像文字識別技術(shù)和廣告特征模型,具體地,對文章內(nèi)容進(jìn)行圖像文字識別,基于訓(xùn)練的廣告特征模型確定識別出的內(nèi)容識別出的內(nèi)容是否為惡意內(nèi)容如廣告文字、廣告圖片等,若是,則將識別出的惡意內(nèi)容刪除。
由于目前圖像文字識別技術(shù)的局限性,其對一些文字或者圖片的識別準(zhǔn)確性比較低,如圖像文字識別技術(shù)對手寫體文字的識別準(zhǔn)確性比較低;并且一些廣告文章發(fā)布者會變化文字的描述手法,比如用戶拼音替代,用象形文字替代等,出現(xiàn)沒有訓(xùn)練過的內(nèi)容特征,使得廣告特征模型無法識別惡意內(nèi)容,因此,降低了惡意內(nèi)容的識別準(zhǔn)確性,導(dǎo)致惡意內(nèi)容去除的準(zhǔn)確性較低。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種特定內(nèi)容的去除方法和裝置,可以提高特定內(nèi)容去除的準(zhǔn)確性。
本發(fā)明實施例提供一種特定內(nèi)容的去除方法,包括:
當(dāng)文章集合有新文章加入時,獲取所述新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分;
從所述文章集合中確定具有所述目標(biāo)文章內(nèi)容成分的目標(biāo)文章;
當(dāng)所述目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定所述目標(biāo)文章所屬的文章類別,得到文章類別集合;
根據(jù)所述文章類別集合所包含的文章類別種數(shù),確定所述目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分;
若是,則根據(jù)所述目標(biāo)文章內(nèi)容成分對所述新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
相應(yīng)的,本發(fā)明實施例還提供一種特定內(nèi)容的去除裝置,包括:
成分獲取單元,用于當(dāng)文章集合有新文章加入時,獲取所述新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分;
目標(biāo)文章確定單元,用于從所述文章集合中確定具有所述目標(biāo)文章內(nèi)容成分的目標(biāo)文章;
類別確定單元,用于當(dāng)所述目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定所述目標(biāo)文章所屬的文章類別,得到文章類別集合;
內(nèi)容確定單元,用于根據(jù)所述文章類別集合所包含的文章類別種數(shù),確定所述目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分;
去除單元,用于當(dāng)所述內(nèi)容確定單元,確定所述目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分時,根據(jù)所述目標(biāo)文章內(nèi)容成分對所述新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
本發(fā)明實施例采用當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識別特定內(nèi)容,無需依靠依靠圖像文字識別技術(shù)和廣告特征模型來識別特定內(nèi)容,因此,可以提高特定內(nèi)容如惡意內(nèi)容等)的識別準(zhǔn)確性,進(jìn)而提高特定內(nèi)容如惡意內(nèi)容等)去除的準(zhǔn)確性。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1a是具有廣告文字的文章示意圖;
圖1b是具有廣告圖片的文章示意圖;
圖1c是本發(fā)明實施例提供的特定內(nèi)容的去除方法的流程示意圖;
圖2是本發(fā)明實施例提供的特定內(nèi)容的去除方法的另一流程示意圖;
圖3是本發(fā)明實施例提供的特定內(nèi)容的去除系統(tǒng)的架構(gòu)示意圖;
圖4a是本發(fā)明實施例提供的特定內(nèi)容的去除裝置的第一種結(jié)構(gòu)示意圖;
圖4b是本發(fā)明實施例提供的特定內(nèi)容的去除裝置的第二種結(jié)構(gòu)示意圖;
圖4c是本發(fā)明實施例提供的特定內(nèi)容的去除裝置的第三種結(jié)構(gòu)示意圖;
圖4d是本發(fā)明實施例提供的特定內(nèi)容的去除裝置的第四種結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實施例提供了一種特定內(nèi)容的去除方法和裝置。以下將分別進(jìn)行詳細(xì)說明。
實施例一、
本實施例將從特定內(nèi)容的去除裝置的角度進(jìn)行描述,該特定內(nèi)容的去除裝置具體可以集成在服務(wù)器,比如內(nèi)容聚合服務(wù)器等設(shè)備中。
一種特定內(nèi)容的去除方法,包括:當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
如圖1c所示,該特定內(nèi)容的去除方法的具體流程可以如下:
101、當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分。
本實施例中,特定內(nèi)容指的是文章內(nèi)容中滿足某種條件的內(nèi)容,該條件可以根據(jù)實際需求設(shè)定。比如,特征內(nèi)容可以包括文章內(nèi)容中與文章本身不相關(guān)的內(nèi)容;又比如,該特征內(nèi)容還可以包括文章內(nèi)容中與文章本身不相關(guān),且具有惡意性的內(nèi)容,即惡意內(nèi)容,如,廣告內(nèi)容、不良內(nèi)容(如色情內(nèi)容、政治敏感內(nèi)容等等)、欺詐內(nèi)容等等。其中,文章集合包括多個文章。比如,在步驟101之前,本實施例可以收集自媒體用戶發(fā)布的文章,得到文章集合。該文章集合可以存儲在本地,或者存在其他設(shè)備或系統(tǒng)中,比如,可以存儲在遠(yuǎn)程nosql(notonlysql,非關(guān)系型數(shù)據(jù)庫)系統(tǒng)中。
本實施例中,當(dāng)檢測到有新文章加入該文章集合中時,可以獲取該新文章的文章內(nèi)容成分。比如,當(dāng)檢測到遠(yuǎn)程nosql系統(tǒng)中文章集合有新文章加入時,可以獲取新文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等,即每一段的文本內(nèi)容即為一個文章內(nèi)容成分,或每一句內(nèi)容即為一個文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個圖片時,圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個文章內(nèi)容成分。
為了加快特定內(nèi)容的識別效率和去除效率,本實施例還可以對文章內(nèi)容進(jìn)行清洗或者過濾,然后,在從過濾后的文章內(nèi)容中獲取文章內(nèi)容成分。比如,可以對文章內(nèi)容中的一些敏感內(nèi)容(用戶標(biāo)識、政治敏感詞等)進(jìn)行過濾。
為了加快特定內(nèi)容的識別速度和去除速度,本實施例可以將組成文章內(nèi)容的內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識作為文章內(nèi)容成分,也即步驟“獲取該新文章的文章內(nèi)容成分”可以包括:
從該新文章的文章內(nèi)容中獲取相應(yīng)的內(nèi)容單元;
獲取該內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識,并將該內(nèi)容標(biāo)識作為該新文章的文章內(nèi)容成分。
比如,可以將組成文本內(nèi)容的內(nèi)容單元的標(biāo)識作為文本內(nèi)容成分,將圖片內(nèi)容的標(biāo)識作為圖片內(nèi)容成分。
其中,內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識可以為內(nèi)容單元的唯一標(biāo)識;比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時,文本內(nèi)容單元的內(nèi)容標(biāo)識可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時,文章內(nèi)容成分可以為文本指紋。
其中,該文本指紋從形式上來一般為固定長度較短的字符串,相同文本指紋的文本可以認(rèn)為是相同文本。比如,可以基于simhash(漢明)算法來獲取一個文本內(nèi)容單元的文本指紋,該文本指紋可以稱為simhash指紋。simhash是用來網(wǎng)頁去重最常用的hash(哈希)方法,可以用來快速識別文本的相似性。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時,該圖片內(nèi)容單元的內(nèi)容標(biāo)識可以為圖片的圖片標(biāo)識,如圖片的md5(消息摘要算法)值。
本實施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時,內(nèi)容單元可以包括每個圖片的鏈接地址,那么本實施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對應(yīng)的圖片標(biāo)識如md5值。
根據(jù)上述描述,本實施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(如md5值等)。
可選地,為能夠識別特定內(nèi)容以達(dá)到去除特定內(nèi)容的目的,本實施例可以在步驟101之前,獲取文章集合內(nèi)每個文章的文章內(nèi)容成分,并保存每個文章的文章內(nèi)容成分。該文章內(nèi)容成分可以包括組成文章內(nèi)容的內(nèi)容單元,或者該文章內(nèi)容成分可包括文本內(nèi)容單元的內(nèi)容標(biāo)識(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(如md5值等)。
本實施例可以將新文章的文章內(nèi)容成分作為待識別的目標(biāo)文章內(nèi)容。
102、從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,可以將新文章的文章內(nèi)容成分與文章集合內(nèi)原有文章的文章內(nèi)容成分進(jìn)行對比,根據(jù)對比結(jié)果從文章集合中確定具有新文章的文章內(nèi)容成分的目標(biāo)文章。
本實施例中,文章內(nèi)容成分可以包括:組成文章內(nèi)容的內(nèi)容單元,或者組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識。因此,文章內(nèi)容成分進(jìn)行對比的方式可以包括:直接對比文章內(nèi)容成分本身,即對比組成文章內(nèi)容的內(nèi)容單元,或者比較組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識。
例如,新文章的文章內(nèi)容成分包括文本指紋1、文本指紋2…文本指紋i…文本指紋m時,通過將文本指紋i與文章集合內(nèi)原有文章的文本指紋進(jìn)行對比,從而從文章集合內(nèi)確定具有文本指紋i的文章。又例如,當(dāng)新文章的文章內(nèi)容成分包括:md5值1、md5值2…md5值i…md5值m時,通過將md5值i與文章集合內(nèi)原有文章的md5值進(jìn)行對比,從而從文章集合內(nèi)確定具有md5值i的文章。
為了能夠快速地確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章,本實施例可以在步驟101之前,獲取文章集合內(nèi)容文章的文章內(nèi)容成分,并建立文章內(nèi)容成分與文章之間的映射關(guān)系,這樣后續(xù)便可以根據(jù)目標(biāo)文章內(nèi)容成分與建立的映射關(guān)系來確定具有目標(biāo)文章內(nèi)容成分的文章。也即在步驟101之前,本實施例方法還可以包括:
針對文章集合內(nèi)的文章,獲取文章集合內(nèi)文章的文章內(nèi)容成分以及文章標(biāo)識;
建立該文章內(nèi)容成分與該文章之間的映射關(guān)系,得到映射關(guān)系集合;
此時,步驟“從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,當(dāng)文章集合原先包含文章1、文章2…文章i…文章n時,可以獲取文章i的文章內(nèi)容成分{文章內(nèi)容成分1、文章內(nèi)容成分2……文章內(nèi)容成分m}、建立文章內(nèi)容成分1與文章1之間的映射關(guān)系、文章內(nèi)容成分2與文章1之間的映射關(guān)系……文章內(nèi)容成分m與文章1之間的映射關(guān)系;這樣當(dāng)針對集合內(nèi)所有文章建立完映射關(guān)系之后,便可以得到一個映射關(guān)系集合。后續(xù)當(dāng)有新文章加入文章集合時,便可以獲取新文章的文章內(nèi)容成分得到待識別的目標(biāo)文章內(nèi)容成分,然后,基于該映射關(guān)系集合和目標(biāo)文章內(nèi)容成分,從文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以由多種,比如文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系可以為索引對,索引對的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分,該索引對的索引值(value)包括該文章的文章標(biāo)識。此時,映射關(guān)系集合可以包括索引對集合。
例如,文章i的文章內(nèi)容成分(如md5值或文本指紋)包括:文章內(nèi)容成分1(如md5值或文本指紋)、文章內(nèi)容成分2(如md5值或文本指紋)……文章內(nèi)容成分m(如md5值或文本指紋),可以建立{key(文章內(nèi)容成分1)、value(文章i)}、{key(文章內(nèi)容成分2)、value(文章i)}……{key(文章內(nèi)容成分m)、value(文章i)};這樣在針對集合內(nèi)所有文章建立索引對完成之后,便可以得到一個索引對集合。
此時,步驟“根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
將該目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞;
從該索引對集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
例如,新文章的文章內(nèi)容成分為文章內(nèi)容成分k(如md5值或文本指紋)時,可以將文章內(nèi)容成分k作為目標(biāo)索引關(guān)鍵詞key,假設(shè)索引對集合包括:{key(文章內(nèi)容成分1)、value(文章1)}、{key(文章內(nèi)容成分2)、value(文章2)}……{key(文章內(nèi)容成分k)、value(文章1)}、{key(文章內(nèi)容成分k)、value(文章2)}……{key(文章內(nèi)容成分k)、value(文章3)}、{key(文章內(nèi)容成分m)、value(文章i)};此時,便可以從索引對集合中查找到key=文章內(nèi)容成分k的value為:value(文章1)、value(文章2)、value(文章3),從而得到具有目標(biāo)文章內(nèi)容成分k的目標(biāo)文章,即文章1、文章2、文章3。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實施例可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對應(yīng)的索引值;這樣后續(xù)遍歷目標(biāo)索引關(guān)鍵詞時便可從其索引值中獲取具有目標(biāo)索引關(guān)鍵詞對應(yīng)的文章內(nèi)容成分的所有文章。也即,步驟“從該索引對集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章”可以包括:
從該索引對集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值;
將索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞及其對應(yīng)的目標(biāo)索引值;
遍歷該目標(biāo)索引關(guān)鍵詞,并獲取該目標(biāo)索引關(guān)鍵詞對應(yīng)的目標(biāo)索引值;
根據(jù)該目標(biāo)索引值確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
例如,當(dāng)查找到key=文章內(nèi)容成分k的value為:value1(文章1)、value2(文章2)、value3(文章3),可以將value1(文章1)、value2(文章2)、value3(文章3)進(jìn)行合并得到keyk(文章內(nèi)容成分k)對應(yīng)的valuek(文章1、文章2、文章3)。這樣后續(xù),當(dāng)遍歷到keyk時便可以獲取valuek,從而根據(jù)valuek確定具有文章內(nèi)容成分k的目標(biāo)文章為文章1、文章2、文章3。
又比如新過來的文章doc2拆分出文章內(nèi)容成分md5,并將其作為key(md5),然后在索引對集合中查找,假設(shè)發(fā)現(xiàn)了同樣的key(md5)并且其value是doc1,那么就把doc2增加到原來的value中;變成了key(md5)->doc1、doc2。
本實施例中,建立的索引對集合可以存儲在本地(即本機(jī)),或者遠(yuǎn)程設(shè)備中,比如,可以存儲在遠(yuǎn)程nosql系統(tǒng)中。如果存在遠(yuǎn)程設(shè)備中,那么可以從遠(yuǎn)程設(shè)備中查找具有相同目標(biāo)文章內(nèi)容成分的目標(biāo)文章,如通過遠(yuǎn)程nosql系統(tǒng)提高的接口來實現(xiàn)查找。
103、當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合。
由于特定內(nèi)容(如惡意內(nèi)容)具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會出現(xiàn)在多篇文章中。因此,本實施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時,表明該目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對該目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)文章數(shù)量可以經(jīng)過多次測試實驗得到,比如,該預(yù)設(shè)文章數(shù)量可以為5、6等等。
104、根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則執(zhí)行步驟105。
比如,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為惡意內(nèi)容成分等等。
當(dāng)某個文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時,并不能說該文章內(nèi)容成分就是特定內(nèi)容成分(如廣告內(nèi)容成分),也可能是天然的一句引用文字或者常見圖片,因此,本實施例方法需要進(jìn)行二次判斷,具體地,可以基于出現(xiàn)相同文章內(nèi)容成分的文章所屬的文章類別來進(jìn)一步確定該文章內(nèi)容成分是否為特定內(nèi)容成分。
經(jīng)過實際分析可知,如果某個文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個不同的文章類別時,那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因為多個不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。具體地,步驟“根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分”可以包括:
當(dāng)該文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)類別種數(shù)時,確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
其中,預(yù)設(shè)類別種數(shù)可以根據(jù)實際需求設(shè)定,比如可以為3、4等。本實施例文章類別可以根據(jù)實際需求劃分,比如,可以將文章類別劃分為:財經(jīng)、體育、娛樂、動漫等等。
當(dāng)文章類別集合所包含的文章類別種數(shù)小于預(yù)設(shè)類別種數(shù)時,為提高特定內(nèi)容識別的精確性,本實施例可以交由人工來確定。由于實際中這種情況較少,人工需要做的二次審核工作很少。而且審核速度非常快,因為只需要對比一段成分或者一張圖片,比閱讀完全文去找到廣告成分要快很多。也即步驟“根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分”還可以包括:
當(dāng)該文章類別種數(shù)不大于預(yù)設(shè)類別種數(shù)時,根據(jù)用戶輸入的成分確認(rèn)信息確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,當(dāng)掃描到某個key下面如果鏈接的文章id多余5個,可以采用如策略:
如果文章id多余5個,所有文章所屬的文章類別的種數(shù)大于3,那么可以確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分;
如果文章id多余5個,所有文章所屬的文章類別的種數(shù)不大于3,那么就提交給人工審核。應(yīng)用人的知識來判斷該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
為了能夠快速地獲取到文章所屬的文章類別以及類別種數(shù),本實施例可以在步驟101之前或者在進(jìn)行特定內(nèi)容去除的流程之前,預(yù)選獲取文章集合內(nèi)所有文章所屬的文章類別,并且在新文章加入文章集合時獲取新文章所屬的文章類別;這樣后續(xù)在確定目標(biāo)文章的數(shù)量大于數(shù)量之后,便可以直接得到目標(biāo)文章所屬的文章類別,以及文章類別集合。
比如,可以建立文章集合內(nèi)文章與其文章類別之間的映射關(guān)系,得到文章類別映射關(guān)系集合;這樣便可以根據(jù)目標(biāo)文章和該文章類別映射關(guān)系集合,獲取目標(biāo)文章所屬的文章類別。其中,文章與其文章類別之間的映射關(guān)系可以包括:文章標(biāo)識與其文章類別之間的映射關(guān)系;該映射關(guān)系可以由索引對來體現(xiàn)索引對的key為文章的文章標(biāo)識、vlaue包括文章所屬的文章類別。
實際應(yīng)用中,當(dāng)有新文章加入文章集合時,獲取新文章與其文章類別直接的映射關(guān)系,并根據(jù)該映射關(guān)系更新該類別映射關(guān)系集合。
105、根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時,那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(md5、或者文本指紋)時,可以將內(nèi)容標(biāo)識對應(yīng)的內(nèi)容單元(如文本指紋對于的某段文字或者md5對應(yīng)的某張圖片)從新文章中去除。
可選地,本實施例在確定目標(biāo)內(nèi)容成分不為特定內(nèi)容成分時,可以結(jié)束流程,或者識別下一個目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分等等。比如,可以返回步驟103繼續(xù)確定識別下一個目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
由上可知,本發(fā)明實施例采用當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識別特定內(nèi)容,無需依靠依靠圖像文字識別技術(shù)和廣告特征模型來識別特定內(nèi)容(如惡意內(nèi)容),因此,可以提高特定內(nèi)容的識別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容)去除的準(zhǔn)確性和效率。
實施例二、
根據(jù)實施例一所描述的方法,以下將作進(jìn)一步詳細(xì)說明。
本實施例將以特定內(nèi)容的去除裝置集成在服務(wù)器中為例,來對本發(fā)明的去除方法進(jìn)一步描述。
如圖2所示,一種特定內(nèi)容的去除方法,具體流程可以如下:
201、服務(wù)器獲取文章集合,該文章集合包多個文章。
該文章集合可以由服務(wù)器收集自媒體用戶發(fā)布的文章得到,該服務(wù)器可以將文章集合存儲在本地,或者存在其他服務(wù)器中,可以將文章集合存儲在其他服務(wù)器的nosql中。
或者,該文章集合可以由其他服務(wù)器收集自媒體用戶發(fā)布的文章得到,服務(wù)器可以供其他服務(wù)器中獲取該文章集合。
202、服務(wù)器提取文章集合內(nèi)每個文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等。即每一段的文本內(nèi)容即為一個文章內(nèi)容成分,或每一句內(nèi)容即為一個文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個圖片時,圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個文章內(nèi)容成分。
為了加快特定內(nèi)容的識別效率和去除效率,本實施例還可以對文章內(nèi)容進(jìn)行清洗或者過濾,然后,在從過濾后的文章內(nèi)容中獲取文章內(nèi)容成分。比如,可以對文章內(nèi)容中的一些敏感內(nèi)容(用戶標(biāo)識、政治敏感詞等)進(jìn)行過濾。
為了加快特定內(nèi)容的識別速度和去除速度,本實施例可以將組成文章內(nèi)容的內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識作為文章內(nèi)容成分,比如,可以將組成文本內(nèi)容的內(nèi)容單元的標(biāo)識作為文本內(nèi)容成分,將圖片內(nèi)容的標(biāo)識作為圖片內(nèi)容成分。
其中,內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識可以為內(nèi)容單元的唯一標(biāo)識;比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時,文本內(nèi)容單元的內(nèi)容標(biāo)識可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時,文章內(nèi)容成分可以為文本指紋如simhash指紋。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時,該圖片內(nèi)容單元的內(nèi)容標(biāo)識可以為圖片的圖片標(biāo)識,如圖片的md5(消息摘要算法)值。
本實施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時,內(nèi)容單元可以包括每個圖片的鏈接地址,那么本實施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對應(yīng)的圖片標(biāo)識如md5值。
根據(jù)上述描述,本實施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(如md5值等)。
203、服務(wù)器建立文章內(nèi)容成分與文章之間的映射關(guān)系,得到映射關(guān)系集合。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以有多種,比如文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系可以為成分標(biāo)識索引對,成分標(biāo)識索引對的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分(如文本指紋、md5值),該索引對的索引值(value)包括該文章的文章標(biāo)識。此時,映射關(guān)系集合即為成分標(biāo)識索引對集合。
比如,在獲取文本集合之后,可以進(jìn)行nosql存儲,具體地,構(gòu)建文章內(nèi)容索引對即key-value對,key為文章的文章標(biāo)識即文章id,value包括:文本內(nèi)容、圖片的鏈接地址、文章所屬的文章類別比如體育、娛樂、財經(jīng)等;然后,在數(shù)據(jù)庫中存儲key-value對。
在采用nosql存儲文本集合之后,可以對文章集合中每篇文章進(jìn)行文章內(nèi)容成分抽取,將抽取的文章內(nèi)容成分作為成分標(biāo)識索引對的key,并將該文章的文章id作為key對應(yīng)的value(也即前面文章內(nèi)容索引對中的key)。如對于每篇文章,按照段落力度進(jìn)行抽取,在文本內(nèi)容中抽取每段文本內(nèi)容,計算每段文本內(nèi)容的文本指紋,將該文本指紋作為文章的文章內(nèi)容成分,將文本內(nèi)容成分作為key,將該文章的文章id作為該key對應(yīng)的value;以及計算文章中圖片的md5、圖片鏈接地址對應(yīng)圖片的md5,將md5作為key,將該文章的文章id作為該key對應(yīng)的value。
本實施例可以將映射關(guān)系集合如索引對集合存儲在本地,也可以存儲在遠(yuǎn)程數(shù)據(jù)庫中。
204、當(dāng)該文章集合有新文章加入時,服務(wù)器提取新文章的文章內(nèi)容成分,并將新文章的文章內(nèi)容成分待識別的目標(biāo)文章內(nèi)容成分。
其中,新文章的文章內(nèi)容提取方式可以參考前面介紹的提取方式。該新文章的文章內(nèi)容成分可以包括md5值、文本指紋等。
205、服務(wù)器根據(jù)當(dāng)前目標(biāo)文章內(nèi)容成分和映射關(guān)系集合,從文章集合中確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,服務(wù)器可以將當(dāng)前目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞key’,然后,在存儲的索引對集合中查找key與該key’相同的value,根據(jù)查找到value確定具有相同文章內(nèi)容的目標(biāo)文章,如查找到key=key’的value為:value1(doc1)、value2(doc2)、value3(doc3),從而得到具有當(dāng)前目標(biāo)文章內(nèi)容成分的目標(biāo)文章,即doc1、doc2、doc3。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實施例服務(wù)器可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對應(yīng)的索引值。比如,如查找到key=key’的value為:value1(doc1)、value2(doc2)、value3(doc3)之后,可以將value1(doc1)、value2(doc2)、value3(doc3)合并成key’->value’(doc1、doc2、doc3)。
每個預(yù)定時間段如1個小時等,掃描或遍歷索引關(guān)鍵詞key,比如,掃描或者遍歷key’時,可以得到key’對應(yīng)的value’(doc1、doc2、doc3),根據(jù)該value’(doc1、doc2、doc3)便可以得到具有key’對應(yīng)的文章內(nèi)容成分的所有文章,即doc1、doc2、doc3。
206、服務(wù)器判斷目標(biāo)文章的數(shù)量是否大于預(yù)設(shè)數(shù)量,若是,則執(zhí)行步驟207,若否,則執(zhí)行步驟212。
由于特定內(nèi)容(如廣告內(nèi)容等)具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會出現(xiàn)在多篇文章中。因此,本實施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時,表明當(dāng)前目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對當(dāng)前目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)數(shù)量可以經(jīng)過多次測試實驗得到,比如,該預(yù)設(shè)數(shù)量可以為5、6、7等等。
該目標(biāo)文章的數(shù)量可以為目標(biāo)文章的標(biāo)識數(shù)量,即文章id數(shù)量;例如,當(dāng)遍歷到key’時,其value’包含的文章標(biāo)識為doc1、doc2、doc3、doc4、doc5、doc6,此時,可以獲取到目標(biāo)文章的數(shù)量為6,假設(shè)預(yù)設(shè)數(shù)量為5,那么此時,可以表明當(dāng)前目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容成分,因此,需要做作進(jìn)一步判斷。
207、服務(wù)器獲取目標(biāo)文章所屬的文章類別,得到文章類別集合。
比如,目標(biāo)文章為doc1、doc2、doc3、doc4、doc5、doc6時,可以獲取doc1所屬的文章類別(如財經(jīng)),doc2所屬的文章類別(如體育)……doc6(如時政)所屬的文章類別,得到文章類別集合,該文章類別集合包括目標(biāo)文章所屬的所有文章類別。
可選地,為快速獲取文章所屬的文章類別,本實施例可以在獲取文章集合后,預(yù)先建立文章與文章類別之間的映射關(guān)系,得到類別映射關(guān)系集合;這樣在當(dāng)目標(biāo)文章數(shù)量大于預(yù)設(shè)數(shù)量之后,便可以根據(jù)目標(biāo)文章、以及類別映射關(guān)系集合獲取目標(biāo)文章所屬的文章類別。
其中,文章與文章類別之間的映射關(guān)系,可以包括文章標(biāo)識與文章類別之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式有多種,比如可以為索引對。例如,在獲取文章集合之后,可以建立索引對,該索引對的索引關(guān)鍵詞(key)為文章的文章標(biāo)識(如doc1),該索引對的索引值(value)包括該文章所屬的文章類別(如財經(jīng))。
為了便于從文章內(nèi)容中提取文章內(nèi)容成分,該索引對的索引值(value)還可以包括文章內(nèi)容,如文本內(nèi)容、圖片內(nèi)容、圖片的鏈接地址等;此時,該索引對可以稱為文章內(nèi)容索引對。
此時,本實施例中,可以將目標(biāo)文章的文章標(biāo)識作為待檢索的key,然后,根據(jù)該key從文章內(nèi)容索引對集合中,查找該key對應(yīng)的value,從value中獲取該目標(biāo)文章所屬的文章類別。
208、服務(wù)器確定文章類別集合所包含的文章類別種數(shù)是否大于預(yù)設(shè)種數(shù),若是,則執(zhí)行步驟209,若否,則執(zhí)行210。
當(dāng)某個文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時,并不能說該文章內(nèi)容成分就是特定內(nèi)容成分,也可能是天然的一句引用文字或者常見圖片,因此,本實施例方法需要進(jìn)行二次判斷。
經(jīng)過實際分析可知,如果某個文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個不同的文章類別時,那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因為多個不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
具體地,當(dāng)文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)種數(shù)時,可以確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
209、服務(wù)器確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,目標(biāo)文章為doc1、doc2、doc3、doc4、doc5、doc6時,獲取各目標(biāo)文章所屬的文章類別,可以得到:doc1的文章類別為財經(jīng)、doc2的文章類別為體育、doc3的文章類別為財經(jīng)、doc4的文章類別為娛樂、doc5的文章類別為時政、doc6的文章類別為財經(jīng)。那么可以獲取文章類別的種數(shù)有4種,即財經(jīng)、體育、娛樂、時政。假設(shè)預(yù)設(shè)種數(shù)為3,那么目標(biāo)文章所屬的文章類別種數(shù)大于預(yù)設(shè)種數(shù),可以當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
210、服務(wù)器獲取用戶輸入的成分確定信息,并根據(jù)該成分確認(rèn)信息確定當(dāng)前目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
例如,當(dāng)遍歷到key’時,其value’包含doc1、doc2、doc3,此時,可以獲取到目標(biāo)文章的數(shù)量為3,假設(shè)預(yù)設(shè)數(shù)量為5,此時,目標(biāo)文章的數(shù)量小于預(yù)設(shè)數(shù)量,那么可以交由人工審核,通過人工來確定當(dāng)前目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,假設(shè)用戶確定該文章內(nèi)容成分為特定內(nèi)容成分時,可以輸入相應(yīng)的成分確定信息,服務(wù)器可以根據(jù)成分確定信息確定當(dāng)前目標(biāo)文章你讓成分為特定內(nèi)容成分。
211、根據(jù)當(dāng)前目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)目標(biāo)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時,那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(md5、或者文本指紋)時,可以將內(nèi)容標(biāo)識對應(yīng)的內(nèi)容單元(如文本指紋對于的某段文字或者md5對應(yīng)的某張圖片)從新文章中去除。
212、取下一個目標(biāo)文章內(nèi)容成分作為當(dāng)前目標(biāo)文章內(nèi)容成分,并返回執(zhí)行步驟205,直到所有目標(biāo)文章內(nèi)容成分確定完為止。
由上可知,本發(fā)明實施例采用當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分,然后,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識別技術(shù)和廣告特征模型來識別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
此外,本發(fā)明提供的方案可以結(jié)合算法和人工確定特定內(nèi)容(如惡意內(nèi)容等),可以避免單純采用機(jī)器算法進(jìn)行廣告去除的盲目性,可以在保證特定內(nèi)容(如惡意內(nèi)容等)除去效率的前提下,進(jìn)一步提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性。
實施例三、
根據(jù)實施例一和實施例二所描述的方法,本實施例提供一種特定內(nèi)容的去除系統(tǒng),該系統(tǒng)的架構(gòu)和流程如圖3所示。如圖3所示,該特定內(nèi)容的去除系統(tǒng)包括:內(nèi)容基礎(chǔ)庫、成分抽取模塊、成分存儲模塊、成分對比模塊、成分存儲庫以及離線打擊模塊。
下面將詳細(xì)描述圖3所示系統(tǒng)中各服務(wù)模塊的主要功能,具體如下:
(1)、內(nèi)容基礎(chǔ)庫:
用來收集全網(wǎng)自媒體用戶的發(fā)文,作為內(nèi)容分發(fā)平臺的文字存儲倉庫,可以采用nosql存儲。具體地,構(gòu)建文章內(nèi)容索引對,其中,key就是每篇文章的id,value至少包括
1文章的文本內(nèi)容(已經(jīng)清洗的內(nèi)容,保留了分段屬性,但是不保留文字樣式,如字體或者顏色);
2所有圖片的鏈接地址,以及圖片。
3文章文本所屬的分類,比如體育,娛樂,財經(jīng)等(這個文本分類技術(shù)并非本專利保護(hù)范圍,可以查詢背景資料)。
(2)、成分抽取模塊:
對于每篇文章,抽取文章內(nèi)容成分;以及構(gòu)建成分文章索引對。
比如,對于每篇文章,按照段落力度進(jìn)行抽取,抽取文章中文本內(nèi)容的段落內(nèi)容,計算段落內(nèi)容對應(yīng)的文本指紋(如simhash指紋),該文本指紋可以作為文章內(nèi)容成分。
又比如,對于每篇文章,抽取每篇文章中圖片,并計算圖片的md5,將該md5作為文章內(nèi)容成分;或者,對于每篇文章,抽取圖片的鏈接地址,根據(jù)該鏈接地址下載相應(yīng)的圖片,計算該圖片的md5,將該md5作為文章內(nèi)容成分。
其中,成分文章索引對中,key為文章內(nèi)容成分(如文本指紋或者md5),value為文章的id,該value可以文章內(nèi)容索引對中的key。
(3)、成分存儲模塊:
用于存儲上述構(gòu)建的成分文章索引對,即兩個key,成分存儲模塊可以將該成分文章索引存儲在本機(jī),或者遠(yuǎn)程nosql存儲中。視具體的數(shù)據(jù)規(guī)模而定。該成分存儲模塊可以為成分存儲庫。
(4)、成分對比模塊;
用于當(dāng)有新文章內(nèi)容出現(xiàn)時,就需要和近期(可以是一個月,或者一周)的內(nèi)容進(jìn)行對比,找出共現(xiàn)的成分,然后對每個成分進(jìn)行統(tǒng)計,并且寫回成分存儲模塊。
提取新文章的文章內(nèi)容成分(比如可以按照成分抽取模塊抽取成分的方式進(jìn)行提取),然后,將該文章內(nèi)容成分作為待檢索的目標(biāo)key,通過在成分存儲模塊中查找與該目標(biāo)key相同的key,并將相同key的value值合并,得到該目標(biāo)key對應(yīng)的目標(biāo)value值,將該目標(biāo)key及其對應(yīng)的目標(biāo)value值寫入成分存儲模塊,更新成分存儲模塊。
比如,比如新過來的文章doc2拆分出成分key,key(md5),通過在成分存儲模塊中查找發(fā)現(xiàn)了同樣的key(md5)并且value是doc1,那么就把doc2增加到原來的value中,變成了key(md5)->doc1,doc2。
(5)、離線打擊模塊;
用于每隔預(yù)設(shè)時間段如1個小時,掃描成分存儲模塊中的所有key,,對于某個key下面如果鏈接的文章id多余5個。則使用如下策略:
a、如果文章id多余5個,并且去內(nèi)容基礎(chǔ)庫查詢,所有文章的類別超過3個。那自動判斷這個成分為特定內(nèi)容成分。
b、如果文章id多余5個,但是文章所屬類別少于3個,那么就提交給人工審核。應(yīng)用人的知識來判斷是不是特定內(nèi)容成分。
如果以上兩個條件(a和b)任意一個滿足,那么就判斷這個key對應(yīng)的文章內(nèi)容成分為低質(zhì)量的特定內(nèi)容成分,對應(yīng)的文章就是作惡文章、或廣告文章。
這個時候本實施例方法并不把文章刪除,而是僅僅把文章本身的特定內(nèi)容部分刪除,因為文章本體往往是好的。
該特定內(nèi)容的去除系統(tǒng)可以基于特定內(nèi)容(如惡意內(nèi)容等)的共現(xiàn)性以及特定內(nèi)容所屬文章類別種類來識別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識別技術(shù)和廣告特征模型來識別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
實施例四、
為了更好地實施以上方法,本發(fā)明實施例還提供特定內(nèi)容的去除裝置,如圖4a所示,該特定內(nèi)容的去除裝置包括:成分獲取單元401、目標(biāo)文章確定單元402、類別確定單元403、內(nèi)容確定單元404和去除單元405,如下:
(1)成分獲取單元401;
成分獲取單元401,用于當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分。
本實施例中,特定內(nèi)容指的是文章內(nèi)容中滿足某種條件的內(nèi)容,該條件可以根據(jù)實際需求設(shè)定。比如,特征內(nèi)容可以包括文章內(nèi)容中與文章本身不相關(guān)的內(nèi)容;又比如,該特征內(nèi)容還可以包括文章內(nèi)容中與文章本身不相關(guān),且具有惡意性的內(nèi)容,即惡意內(nèi)容,如,廣告內(nèi)容、不良內(nèi)容(如色情內(nèi)容、政治敏感內(nèi)容等等)、欺詐內(nèi)容等等。
其中,文章集合包括多個文章。比如,在步驟101之前,本實施例可以收集自媒體用戶發(fā)布的文章,得到文章集合。該文章集合可以存儲在本地,或者存在其他設(shè)備或系統(tǒng)中,比如,可以存儲在遠(yuǎn)程nosql(notonlysql,非關(guān)系型數(shù)據(jù)庫)系統(tǒng)中。
本實施例中,成分獲取單元401當(dāng)檢測到有新文章加入該文章集合中時,可以獲取該新文章的文章內(nèi)容成分。比如,當(dāng)檢測到遠(yuǎn)程nosql系統(tǒng)中文章集合有新文章加入時,可以獲取新文章的文章內(nèi)容成分。
其中,文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元,該內(nèi)容單元可以選取根據(jù)實際需求設(shè)定。文章內(nèi)容一般可以包括文本內(nèi)容、圖片內(nèi)容等中的至少一種;因此,該內(nèi)容單元可以包括組成文本內(nèi)容的文本內(nèi)容單元、組成圖片內(nèi)容的圖片內(nèi)容單元中的至少一種。其中,組成文本內(nèi)容的文本內(nèi)容單元可以根據(jù)段落、句子等劃分。比如,文本內(nèi)容單元可以包括文本內(nèi)容中段落內(nèi)容、句子內(nèi)容等等。,即每一段的文本內(nèi)容即為一個文章內(nèi)容成分,或每一句內(nèi)容即為一個文章內(nèi)容成分。
該組成圖片內(nèi)容的圖片內(nèi)容單元即為圖片內(nèi)容本身,比如,該當(dāng)文章內(nèi)容包括某個圖片時,圖片內(nèi)容單元即為該圖片,也即每一張圖片即為一個文章內(nèi)容成分。
為了加快特定內(nèi)容的識別速度和去除速度,本實施例可以將組成文章內(nèi)容的內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識作為文章內(nèi)容成分。參考圖4b,該成分獲取單元401可以包括:
內(nèi)容提取子單元4011,用于從該新文章的文章內(nèi)容中獲取相應(yīng)的內(nèi)容單元;
成分獲取子單元4012,用于獲取該內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識,并將該內(nèi)容標(biāo)識作為該新文章的文章內(nèi)容成分。
其中,內(nèi)容單元對應(yīng)的內(nèi)容標(biāo)識可以為內(nèi)容單元的唯一標(biāo)識;比如,當(dāng)內(nèi)容單元包括組成文本內(nèi)容的文本內(nèi)容單元時,文本內(nèi)容單元的內(nèi)容標(biāo)識可以包括文本內(nèi)容單元的文本指紋,如某段文本內(nèi)容的文本指紋,此時,文章內(nèi)容成分可以為文本指紋。
又比如,當(dāng)內(nèi)容單元包括組成圖片內(nèi)容的圖片內(nèi)容單元,即圖片時,該圖片內(nèi)容單元的內(nèi)容標(biāo)識可以為圖片的圖片標(biāo)識,如圖片的md5(消息摘要算法)值。
本實施例中,文章內(nèi)容除了包含文本內(nèi)容和圖片內(nèi)容之外,還可以包括圖片的鏈接地址,此時,內(nèi)容單元可以包括每個圖片的鏈接地址,那么本實施例可以根據(jù)圖片的鏈接地址下載相應(yīng)的圖片,然后,獲取下載圖片對應(yīng)的圖片標(biāo)識如md5值。
根據(jù)上述描述,本實施例中文章內(nèi)容成分可以包括文本內(nèi)容單元的內(nèi)容標(biāo)識(如文本指紋等)和/或圖片內(nèi)容單元的圖片標(biāo)識(如md5值等)。
(2)目標(biāo)文章確定單元402;
目標(biāo)文章確定單元402,用于從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
比如,目標(biāo)文章確定單元402,可以用于從可以將新文章的文章內(nèi)容成分與文章集合內(nèi)原有文章的文章內(nèi)容成分進(jìn)行對比,根據(jù)對比結(jié)果從文章集合中確定具有新文章的文章內(nèi)容成分的目標(biāo)文章。
為了能夠快速地確定具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章,本實施例可以在新文章加入文章集合之前,獲取文章集合內(nèi)容文章的文章內(nèi)容成分,并建立文章內(nèi)容成分與文章之間的映射關(guān)系,這樣后續(xù)便可以根據(jù)目標(biāo)文章內(nèi)容成分與建立的映射關(guān)系來確定具有目標(biāo)文章內(nèi)容成分的文章。
可選地,參考圖4c,本實施例的去除裝置還可以包括:關(guān)系建立單元406;
關(guān)系建立單元406,用于在文章集合有新文章加入之前,針對文章集合內(nèi)的文章,獲取文章集合內(nèi)文章的文章內(nèi)容成分,建立該文章內(nèi)容成分與該文章之間的映射關(guān)系,得到映射關(guān)系集合;
此時,目標(biāo)文章確定單元402,用于根據(jù)該目標(biāo)文章內(nèi)容成分、以及該映射關(guān)系集合,從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
其中,文章內(nèi)容成分與文章之間的映射關(guān)系可以包括文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系,該映射關(guān)系的表現(xiàn)形式可以由多種,比如文章內(nèi)容成分與文章標(biāo)識之間的映射關(guān)系可以為索引對,索引對的索引關(guān)鍵詞(key)為文章的文章內(nèi)容成分,該索引對的索引值(value)包括該文章的文章標(biāo)識。此時,映射關(guān)系集合可以包括索引對集合。
此時,該文章內(nèi)容成分與該文章之間的映射關(guān)系包括:索引對,該索引對的索引關(guān)鍵詞為該文章內(nèi)容成分,該索引對的索引值包括該文章的文章標(biāo)識,該映射關(guān)系集合包括索引對集合。參考圖4d,目標(biāo)文章確定單元402,包括:
關(guān)鍵詞確定子單元4021,用于將該目標(biāo)文章內(nèi)容成分作為待檢索的目標(biāo)索引關(guān)鍵詞;
目標(biāo)文章確定子單元4022,用于從該索引對集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值,得到具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
為了便于查找到具有相同文章內(nèi)容成分的文章,本實施例可以在獲取索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值之后,可以對索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞對應(yīng)的索引值;這樣后續(xù)遍歷目標(biāo)索引關(guān)鍵詞時便可從其索引值中獲取具有目標(biāo)索引關(guān)鍵詞對應(yīng)的文章內(nèi)容成分的所有文章。比如,目標(biāo)文章確定子單元4022,可以用于:
從該索引對集合中查找索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值;
將索引關(guān)鍵詞與該目標(biāo)索引關(guān)鍵詞相同的索引值進(jìn)行合并,得到目標(biāo)索引關(guān)鍵詞及其對應(yīng)的目標(biāo)索引值;
遍歷該目標(biāo)索引關(guān)鍵詞,并獲取該目標(biāo)索引關(guān)鍵詞對應(yīng)的目標(biāo)索引值;
根據(jù)該目標(biāo)索引值確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章。
(3)類別確定單元403;
類別確定單元403,用于當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,確定該目標(biāo)文章所屬的文章類別,得到文章類別集合。
由于特定內(nèi)容具有共現(xiàn)性,也就是說一段特定內(nèi)容往往會出現(xiàn)在多篇文章中。因此,本實施例可以獲取具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章的數(shù)量,當(dāng)該數(shù)量大于預(yù)設(shè)文章數(shù)量時,表明該目標(biāo)文章內(nèi)容成分可能為特定內(nèi)容,所以需要針對該目標(biāo)文章內(nèi)容成分作進(jìn)一步判斷。
其中,預(yù)設(shè)文章數(shù)量可以經(jīng)過多次測試實驗得到,比如,該預(yù)設(shè)文章數(shù)量可以為5、6等等。
為了能夠快速地獲取到文章所屬的文章類別以及類別種數(shù),本實施例可以在新文章加入文章集合之前,建立文章集合內(nèi)文章與其文章類別之間的映射關(guān)系,得到文章類別映射關(guān)系集合;這樣類別確定單元403便可以根據(jù)目標(biāo)文章和該文章類別映射關(guān)系集合,獲取目標(biāo)文章所屬的文章類別。其中,文章與其文章類別之間的映射關(guān)系可以包括:文章標(biāo)識與其文章類別之間的映射關(guān)系;該映射關(guān)系可以由索引對來體現(xiàn)索引對的key為文章的文章標(biāo)識、vlaue包括文章所屬的文章類別。
(4)內(nèi)容確定單元404;
內(nèi)容確定單元404,用于根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。
當(dāng)某個文章內(nèi)容成分在超過預(yù)設(shè)數(shù)量的文章中出現(xiàn)時,并不能說該文章內(nèi)容成分就是特定內(nèi)容成分,也可能是天然的一句引用文字或者常見圖片,因此,本實施例方法需要進(jìn)行二次判斷,具體地,可以基于出現(xiàn)相同文章內(nèi)容成分的文章所屬的文章類別來進(jìn)一步確定該文章內(nèi)容成分是否為特定內(nèi)容成分。
經(jīng)過實際分析可知,如果某個文章內(nèi)容成分在一定數(shù)量的文章中出現(xiàn),且該出現(xiàn)該文章內(nèi)容的文章所屬多個不同的文章類別時,那么很大概率可以確定該文章內(nèi)容成分為特定內(nèi)容成分,因為多個不同類別的文章內(nèi)容出現(xiàn)同一段文字的概率非常小。
因此,本實施例可以基于具有目標(biāo)文章內(nèi)容成分的目標(biāo)文章所屬的文章類別種類進(jìn)一步確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分。比如,內(nèi)容確定單元404,可以用于:
當(dāng)該文章類別集合所包含的文章類別種數(shù)大于預(yù)設(shè)類別種數(shù)時,確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分;
當(dāng)該文章類別種數(shù)不大于預(yù)設(shè)類別種數(shù)時,根據(jù)用戶輸入的成分確認(rèn)信息確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分。
其中,預(yù)設(shè)類別種數(shù)可以根據(jù)實際需求設(shè)定,比如可以為3、4等。本實施例文章類別可以根據(jù)實際需求劃分,比如,可以將文章類別劃分為:財經(jīng)、體育、娛樂、動漫等等。
(5)、去除單元405;
去除單元405,用于當(dāng)該內(nèi)容確定單元404,確定該目標(biāo)文章內(nèi)容成分為特定內(nèi)容成分時,根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。
比如,當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元(如某段文字或者某張圖片)時,那么可以將該內(nèi)容單元直接從新文章中去除。
當(dāng)文章內(nèi)容成分為組成文章內(nèi)容的內(nèi)容單元的內(nèi)容標(biāo)識(md5、或者文本指紋)時,可以將內(nèi)容標(biāo)識對應(yīng)的內(nèi)容單元(如文本指紋對于的某段文字或者md5對應(yīng)的某張圖片)從新文章中去除。
具體實施時,以上各個單元可以作為獨立的實體來實現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個實體來實現(xiàn),以上各個單元的具體實施可參見前面的方法實施例,在此不再贅述。
該特定內(nèi)容的去除裝置具體可以集成在服務(wù)器中,比如可以集成在內(nèi)容聚合服務(wù)器中。
由上可知,本發(fā)明實施例采用成分獲取單元401當(dāng)文章集合有新文章加入時,獲取該新文章的文章內(nèi)容成分,得到待識別的目標(biāo)文章內(nèi)容成分,然后,由目標(biāo)文章確定單元402從該文章集合中確定具有該目標(biāo)文章內(nèi)容成分的目標(biāo)文章,當(dāng)該目標(biāo)文章的數(shù)量大于預(yù)設(shè)文章數(shù)量時,由類別確定單元403確定該目標(biāo)文章所屬的文章類別,得到文章類別集合,由內(nèi)容確定單元404根據(jù)該文章類別集合所包含的文章類別種數(shù),確定該目標(biāo)文章內(nèi)容成分是否為特定內(nèi)容成分,若是,則由去除單元405根據(jù)該目標(biāo)文章內(nèi)容成分對該新文章中相應(yīng)的特定內(nèi)容進(jìn)行去除。該方案可以基于特定內(nèi)容的共現(xiàn)性以及特定內(nèi)容(如惡意內(nèi)容等)所屬文章類別種類來識別特定內(nèi)容(如惡意內(nèi)容等),無需依靠依靠圖像文字識別技術(shù)和廣告特征模型來識別特定內(nèi)容,因此,可以提高特定內(nèi)容(如惡意內(nèi)容等)的識別準(zhǔn)確性和效率,進(jìn)而提高特定內(nèi)容(如惡意內(nèi)容等)去除的準(zhǔn)確性和效率。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(rom,readonlymemory)、隨機(jī)存取記憶體(ram,randomaccessmemory)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的一種特定內(nèi)容的去除方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。