午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法

文檔序號:10655254閱讀:268來源:國知局
基于主題模型的自展式特征選擇方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種基于主題模型的自展式特征選擇方法及系統(tǒng),該方法包括以下步驟:獲取原始評論數(shù)據(jù);選取主題模型,并根據(jù)主題模型對原始評論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則;根據(jù)語義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。本發(fā)明的方法能有效地抽取相關(guān)特征,摒棄無關(guān)特征和觀點(diǎn)詞,極大地減少人工工作量及人工誤差。
【專利說明】
基于主題模型的自展式特征選擇方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001 ]本發(fā)明設(shè)及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別設(shè)及一種基于主題模型的自展式特征選擇 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速興起,在線購物為人們帶來了便利的購物方式,同時廣大電商 網(wǎng)站允許已購買產(chǎn)品的顧客對產(chǎn)品進(jìn)行評論W供后來的潛在消費(fèi)者參考,此類信息在網(wǎng)站 上迅速膨脹,構(gòu)成了海量數(shù)據(jù)。運(yùn)些評論信息,尤其是某些熱銷產(chǎn)品的評論信息,對業(yè)界和 科研人員來說都是極其寶貴的參考材料,在觀點(diǎn)挖掘、產(chǎn)品預(yù)測等方面都有著極大的參考 價值。生產(chǎn)企業(yè)可W通過顧客的產(chǎn)品評論改進(jìn)自己的產(chǎn)品;營銷團(tuán)隊(duì)通過對產(chǎn)品評論進(jìn)行 分析比較能夠得到該產(chǎn)品的銷售趨勢或根據(jù)不同產(chǎn)品間的比較得到熱點(diǎn)產(chǎn)品;科研人員可 W通過產(chǎn)品評論進(jìn)行顧客的情感分析等。然而運(yùn)些工作全都離不開觀點(diǎn)挖掘。觀點(diǎn)挖掘,也 稱為情緒分析,是對于人們關(guān)于某一實(shí)體的特征、組件、屬性等所產(chǎn)生的觀點(diǎn)、態(tài)度和情緒 進(jìn)行挖掘和分析的一種技術(shù),是自然語言處理學(xué)科中重要的一個領(lǐng)域,得到了學(xué)術(shù)界和業(yè) 界的重視。
[0003] 結(jié)合產(chǎn)品評論,觀點(diǎn)挖掘能十分有效地反應(yīng)用戶的對于某具體事物的具體觀點(diǎn), 具有實(shí)時性、話題敏感性和多變性的特點(diǎn)。觀點(diǎn)挖掘作為自然語言處理的重要組成部分,也 是機(jī)器學(xué)習(xí)中的一個重要研究領(lǐng)域。同時,由于電商平臺數(shù)據(jù)的多變性和數(shù)據(jù)規(guī)模的龐大, 基于在線數(shù)據(jù)的觀點(diǎn)挖掘一直是研究的熱點(diǎn)和難點(diǎn)。網(wǎng)絡(luò)用語、話題的快速流行和消亡往 往要求在線觀點(diǎn)挖掘模型具有良好的應(yīng)激性及對于新用語的敏感性和適應(yīng)性,運(yùn)在機(jī)器學(xué) 習(xí)領(lǐng)域尚是個研究熱點(diǎn)。特征抽取是觀點(diǎn)挖掘中的重要環(huán)節(jié),提取結(jié)果的好壞將直接影響 觀點(diǎn)挖掘的結(jié)果好壞。大多數(shù)模型往往對產(chǎn)品評論利用監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)來進(jìn)行特征 提取,運(yùn)往往是因?yàn)楫a(chǎn)品評論的領(lǐng)域局限性造成的:同樣的一個特征詞在不同的專業(yè)領(lǐng)域 的權(quán)重大多不相等,例如"動力"一詞在汽車等交通工具的產(chǎn)品評論中占有重要的地位,然 而在手機(jī)等數(shù)碼產(chǎn)品的評論中則是無用的"噪音"評論。W往的工作中,對于特征的抽取往 往需要人工標(biāo)定,往往就是由領(lǐng)域局限性造成的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0005] 為此,本發(fā)明的一個目的在于提出一種基于主題模型的自展式特征選擇方法,該 方法能有效地抽取相關(guān)特征,擬棄無關(guān)特征和觀點(diǎn)詞,極大地減少人工工作量及人工誤差。
[0006] 本發(fā)明的另一個目的在于提出一種基于主題模型的自展式特征選擇系統(tǒng)。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面的實(shí)施例公開了一種基于主題模型的自展式 特征選擇方法,包括W下步驟:Sl:獲取原始評論數(shù)據(jù);S2:選取主題模型,并根據(jù)所述主題 模型對所述原始評論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特 征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則;W及S3:根據(jù)所述語義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和 觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞 與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0008] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的自展式特征選擇方法還可W具有 如下附加的技術(shù)特征:
[0009] 在一些示例中,還包括:獲取隱式特征評論,并根據(jù)所述顯示特征詞與特征詞之間 的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間的傳導(dǎo)性,將隱 式特征評論中的觀點(diǎn)詞根據(jù)所述語義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。
[0010] 在一些示例中,所述主題模型為潛在的狄利克雷分布LDA。
[0011] 在一些示例中,所述S2進(jìn)一步包括:S21:將所述原始評論數(shù)據(jù)的初始特征空間設(shè) 置為空;S22:從所述原始評論數(shù)據(jù)中挑選一個特征,并計算在所述特征下每個單詞的條件 概率;S23:設(shè)置一個闊值,W保留條件概率大于所述闊值的單詞,并濾除條件概率小于所述 闊值的詞匯;S24:重復(fù)執(zhí)行所述步驟S22至步驟S23,直至得到足夠維度的特征。
[0012] 在一些示例中,所述原始評論數(shù)據(jù)中每個單詞都具有其唯一的主題,則原始評論 數(shù)據(jù)中每個詞的優(yōu)化目標(biāo)如下式:
[0013]
[0014] 其中Z表示原始評論數(shù)據(jù)中每個單詞都對應(yīng)的主題,W表示原始評論數(shù)據(jù)中的單 詞,0表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。
[0015] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,采用LDA運(yùn)種概率生 成模型來刻畫數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語義特點(diǎn),由文本自身 的特性出發(fā)得到挖掘結(jié)果,該方法能有效地抽取相關(guān)特征,擬棄無關(guān)特征和觀點(diǎn)詞,極大減 少了人工工作量和人工誤差。另外,通過挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本,提高 觀點(diǎn)枉掘效果。
[0016] 本發(fā)明第二方面的實(shí)施例公開了一種基于主題模型的自展式特征選擇系統(tǒng),包 括:獲取模塊,所述獲取模塊用于獲取原始評論數(shù)據(jù);處理模塊,所述處理模塊用于選取主 題模型,并根據(jù)所述主題模型對所述原始評論數(shù)據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的 抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則;匹配模塊,所述匹配模塊用于根 據(jù)所述語義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與特征詞之間 的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀 點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0017] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)還可W具有 如下附加的技術(shù)特征:
[0018] 在一些示例中,所述匹配模塊還用于:獲取隱式特征評論,并根據(jù)所述顯示特征詞 與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間 的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根據(jù)所述語義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。
[0019] 在一些示例中,所述主題模型為潛在的狄利克雷分布LDA。
[0020] 在一些示例中,所述處理模塊用于:將所述原始評論數(shù)據(jù)的初始特征空間設(shè)置為 空,并從所述原始評論數(shù)據(jù)中挑選一個特征,并計算在所述特征下每個單詞的條件概率,并 設(shè)置一個闊值,W保留條件概率大于所述闊值的單詞,并濾除條件概率小于所述闊值的詞 匯,并重復(fù)執(zhí)行上述過程,直至得到足夠維度的特征。
[0021] 在一些示例中,所述原始評論數(shù)據(jù)中每個詞都具有其唯一的主題,則原始評論數(shù) 據(jù)中每個單詞的優(yōu)化目標(biāo)如下式:
[0022]
[0023] 其中Z表示原始評論數(shù)據(jù)中每個單詞都對應(yīng)的主越,W表示原始評論數(shù)據(jù)中的單 詞,0表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。
[0024] 根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng),采用LDA運(yùn)種概率生 成模型來刻畫數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語義特點(diǎn),由文本自身 的特性出發(fā)得到挖掘結(jié)果,該系統(tǒng)能有效地抽取相關(guān)特征,擬棄無關(guān)特征和觀點(diǎn)詞,極大減 少了人工工作量和人工誤差。另外,通過挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本,提高 觀點(diǎn)枉掘效果。
[0025] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0026] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0027] 圖1是根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法的流程圖;
[0028] 圖2是根據(jù)本發(fā)明一個實(shí)施例的主題模型特征降維概率圖模型示意圖;
[0029] 圖3是根據(jù)本發(fā)明一個實(shí)施例的語義關(guān)聯(lián)關(guān)系挖掘示例圖;W及
[0030] 圖4是根據(jù)本發(fā)明一個實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)的結(jié)構(gòu)框 圖。
【具體實(shí)施方式】
[0031] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0032] 在本發(fā)明的描述中,需要理解的是,術(shù)語"中屯、"、"縱向橫向上"、"下"、 "前"、"后V'左'、"右V'豎曹'、"水甲V'頂'、"底V'胖V'外"等指示的方位或位置關(guān)系為 基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗 示所指的裝置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對 本發(fā)明的限制。此外,術(shù)語"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對 重要性。
[0033] 在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可W是固定連接,也可W是可拆卸連接,或一體地連接;可 W是機(jī)械連接,也可W是電連接;可W是直接相連,也可W通過中間媒介間接相連,可W是 兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可W具體情況理解上述術(shù)語在本 發(fā)明中的具體含義。
[0034] W下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法及 系統(tǒng)。
[0035] 圖I是根據(jù)本發(fā)明一個實(shí)施例的基于主題模型的自展式特征選擇方法的流程圖。 如圖1所示,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,包括W下步驟:
[0036] 步驟Sl:獲取原始評論數(shù)據(jù)。
[0037] 步驟S2:選取主題模型,并根據(jù)主題模型對原始評論數(shù)據(jù)進(jìn)行特征降維、顯式特征 詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則。
[0038] 具體地說,對于原始的產(chǎn)品評論(原始評論數(shù)據(jù)),語句中常常包含大量的無關(guān)噪 聲和重復(fù)數(shù)據(jù)(如許多相互重復(fù)的信息W及和預(yù)測目標(biāo)無關(guān)的無用信息),而運(yùn)些信息會造 成最后模型參數(shù)的激增,使得模型訓(xùn)練變得更加困難。另一方面,產(chǎn)品評論(原始評論數(shù)據(jù)) 是一個樣合了多種語言形式的文本,例如網(wǎng)絡(luò)流行語、網(wǎng)絡(luò)用語縮寫、網(wǎng)頁鏈接和表情符號 等。有些數(shù)據(jù)類型明顯與產(chǎn)品本身無關(guān),因此需要對數(shù)據(jù)進(jìn)行清洗和篩選,即在特征用于學(xué) 習(xí)之前,往往需要進(jìn)行從高維特征空間到低維特征空間的映射,保留有用信息,從而降低模 型訓(xùn)練的復(fù)雜度,諸如網(wǎng)頁鏈接、話題標(biāo)簽、位置信息W及重復(fù)的子句將被刪除,網(wǎng)絡(luò)流行 語及網(wǎng)絡(luò)縮寫在遍歷了用語詞典后仍找不到的提醒人工標(biāo)準(zhǔn),表情符號W文字代替。
[0039] 在本發(fā)明的一個實(shí)施例中,主題模型例如為LDA(Latent Dirichlet Allocation, 潛在的狄利克雷分布)dLDA作為一個統(tǒng)計生成模型,自2003年提出W來,逐步成為具有多種 應(yīng)用場景的機(jī)器學(xué)習(xí)方法。其將文本中詞語進(jìn)行統(tǒng)計映射到向量空間的方法十分符合高維 特征空間到低維特征空間的轉(zhuǎn)換,同時該方法的統(tǒng)計特性也保證了其在離散數(shù)據(jù)(如文本) 上的良好分析能力。同時,LDA能夠?qū)⒃~與詞之間的語義關(guān)聯(lián)W概率的形式表現(xiàn)出來,十分 符合無監(jiān)督觀點(diǎn)挖掘?qū)τ谖谋菊Z義體現(xiàn)的需求,因此本發(fā)明的實(shí)施例選擇LDA來進(jìn)行數(shù)據(jù) 處理和特征抽取。
[0040] 潛在的狄利克雷分布LDA是目前常見的特征降維方法,是一種層次的貝葉斯模型。 其主要思想是將計算出文本中每個詞在預(yù)先設(shè)定好的主題下的概率,并通過闊值限定篩選 出有用的特征及過濾掉無用的噪聲數(shù)據(jù)?;诖?,結(jié)合圖2所示,步驟S2進(jìn)一步包括:
[0041 ] S21:將原始評論數(shù)據(jù)的初始特征空間設(shè)置為空。
[0042] S22:從原始評論數(shù)據(jù)中挑選一個特征,并計算在特征下每個單詞的條件概率。
[0043] S23:設(shè)置一個闊值,W保留條件概率大于闊值的單詞,并濾除條件概率小于闊值 的詞匯。
[0044] S24:重復(fù)執(zhí)行步驟S22至步驟S23,直至得到足夠維度的特征。
[0045] 其中,例如,設(shè)定原始評論數(shù)據(jù)中每個單詞W都具有其唯一的主題Z,則原始評論數(shù) 據(jù)中每個詞的優(yōu)化目標(biāo)如下式:
[0046]
[0047] 其中Z表示原始評論數(shù)據(jù)中每個詞都對應(yīng)的主題,W表示原始評論數(shù)據(jù)中的單詞,0 表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。也就是說,求解 有用的特征詞的概率問題就轉(zhuǎn)換成了求解文檔~主題的分布和主題~詞匯的分布的問題, 而運(yùn)兩個問題在給定文本集的前提下是可統(tǒng)計計算的,并在每個主題下將文本詞匯按條件 概率排序。由此可W知道,本發(fā)明的實(shí)施例通過設(shè)定不同的闊值適當(dāng)保留前若干個高概率 詞匯,從而完成特征篩取和降維。
[004引在上述示例中,主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關(guān)聯(lián)規(guī) 則運(yùn)=個子任務(wù)的原因在于:運(yùn)=個子任務(wù)都用到了單詞的概率表現(xiàn)。運(yùn)樣,通過設(shè)定闊 值,可W將每個主題下出現(xiàn)概率低的詞篩取掉,完成特征降維任務(wù)。同時,根據(jù)高概率的單 詞抽取出特征詞、觀點(diǎn)詞并W此進(jìn)行關(guān)聯(lián)得到語義關(guān)聯(lián)股則。
[0049] 步驟S3:根據(jù)語義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與 特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬?特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0050] 具體地說,從上文描述中可知,主題模型(如LDA)能夠W統(tǒng)計概率的模式表現(xiàn)出詞 與詞之間的關(guān)聯(lián)性。運(yùn)一特性能夠十分良好的挖掘出特征詞和觀點(diǎn)詞。結(jié)合圖3所示,具體 介紹如下:
[0051] 中文文本在進(jìn)行詞性標(biāo)注之后,可根據(jù)詞性選出候選特征詞和觀點(diǎn)詞。特征詞的 詞性往往是名詞或名詞詞組,如"屏幕"、"質(zhì)量"等;觀點(diǎn)詞則往往是動詞或形容詞W及副 詞,如"靈活"、"好看"、"適合妹子用"等。當(dāng)將正確的產(chǎn)品特征和相關(guān)的觀點(diǎn)詞匹配好之后, 就完成了對該產(chǎn)品的觀點(diǎn)挖掘。
[0052] 在本主題模型中,使用語義關(guān)聯(lián)規(guī)則來實(shí)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞的匹配。而語義關(guān) 聯(lián)規(guī)則的挖掘則依賴于主題模型。當(dāng)?shù)玫矫總€主題下單詞的概率時,概率大的詞表示該詞 與主題語義關(guān)聯(lián)緊密,概率低表示該詞與該主題語義關(guān)聯(lián)稀疏。由于主題模型的特性,我們 可W人工定義主題詞作為特征種子詞,再利用主題模型對文本語義的概率描述得到詞與詞 之間的語義關(guān)聯(lián)。從特征種子詞出發(fā),結(jié)合特征詞、觀點(diǎn)詞的特有詞性及設(shè)定不同的闊值, 進(jìn)行特征抽取和觀點(diǎn)詞篩選和匹配,從而完成觀點(diǎn)挖掘。由于不同的語義文本在主題模型 的描述下關(guān)聯(lián)性自然不同,運(yùn)是由文本自身的特性形成的,即主題模型展現(xiàn)了文本內(nèi)部自 身的關(guān)聯(lián)性,通過極少的幾個種子詞作為起點(diǎn),挖掘出特征詞和相應(yīng)的觀點(diǎn)詞。因此,運(yùn)種 方法稱為自展式的觀點(diǎn)挖掘,即通過模型自身特性進(jìn)行挖掘,而不需過多借助人工標(biāo)定。
[0053] 進(jìn)一步地,該方法還包括:獲取隱式特征評論,并根據(jù)顯示特征詞與特征詞之間的 關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)S者之間的傳導(dǎo)性,將隱式 特征評論中的觀點(diǎn)詞根據(jù)所述語義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。具體地說,特征詞不直 接出現(xiàn)在評論中的句子稱為隱式評論,如:"媳婦挺喜歡用的,就是不容易放進(jìn)口袋",在運(yùn) 句關(guān)于手機(jī)的評論中,關(guān)于手機(jī)特性的特征詞"大小"或"手機(jī)尺寸"并沒有出現(xiàn),然而人們 都可W看出運(yùn)句評論是對手機(jī)大小進(jìn)行了描述。被隱式特征描述的特征就稱為隱式特征。 觀點(diǎn)挖掘的質(zhì)量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的工作中,觀點(diǎn)挖掘的研究者 們往往關(guān)注顯示特征評論,即特征直接出現(xiàn)在句子中的評論,的選取,而忽略了隱式特征的 評論。然而隱式特征平均占整體特征的20%-30%,對觀點(diǎn)挖掘結(jié)果有著不可忽視的影響。 因此隱式特征評論的挖掘工作十分必要。通過自展式特征抽取,我們已經(jīng)得到了顯式特征 詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)。則根據(jù) 運(yùn)=種關(guān)聯(lián)的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根據(jù)關(guān)聯(lián)規(guī)則得到相匹配的特征詞,貝U 可完善觀點(diǎn)挖掘的樣本,提高觀點(diǎn)挖掘效果。
[0054] 綜上,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇方法,采用LDA運(yùn)種概 率生成模型來刻畫數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語義特點(diǎn),由文本 自身的特性出發(fā)得到挖掘結(jié)果,該方法能有效地抽取相關(guān)特征,擬棄無關(guān)特征和觀點(diǎn)詞,極 大減少了人工工作量和人工誤差。另外,通過挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本, 提高觀點(diǎn)挖掘效果。
[0055] 本發(fā)明的進(jìn)一步實(shí)施例還提供了一種基于主題模型的自展式特征選擇系統(tǒng)。
[0056] 圖4是根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)的結(jié)構(gòu)框圖。如 圖4所示,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng)100,包括:獲取模塊 110、處理模塊120和匹配模塊130。
[0057] 其中,獲取模塊110用于獲取原始評論數(shù)據(jù)。
[005引處理模塊120用于選取主題模型,并根據(jù)主題模型對原始評論數(shù)據(jù)進(jìn)行特征降維、 顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)顯式特征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則。
[0059] 具體地說,對于原始的產(chǎn)品評論(原始評論數(shù)據(jù)),語句中常常包含大量的無關(guān)噪 聲和重復(fù)數(shù)據(jù)(如許多相互重復(fù)的信息W及和預(yù)測目標(biāo)無關(guān)的無用信息),而運(yùn)些信息會造 成最后模型參數(shù)的激增,使得模型訓(xùn)練變得更加困難。另一方面,產(chǎn)品評論(原始評論數(shù)據(jù)) 是一個樣合了多種語言形式的文本,例如網(wǎng)絡(luò)流行語、網(wǎng)絡(luò)用語縮寫、網(wǎng)頁鏈接和表情符號 等。有些數(shù)據(jù)類型明顯與產(chǎn)品本身無關(guān),因此需要對數(shù)據(jù)進(jìn)行清洗和篩選,即在特征用于學(xué) 習(xí)之前,往往需要進(jìn)行從高維特征空間到低維特征空間的映射,保留有用信息,從而降低模 型訓(xùn)練的復(fù)雜度,諸如網(wǎng)頁鏈接、話題標(biāo)簽、位置信息W及重復(fù)的子句將被刪除,網(wǎng)絡(luò)流行 語及網(wǎng)絡(luò)縮寫在遍歷了用語詞典后仍找不到的提醒人工標(biāo)準(zhǔn),表情符號W文字代替。
[0060] 在本發(fā)明的一個實(shí)施例中,主題模型例如為潛在的狄利克雷分布LDAdLDA作為一 個統(tǒng)計生成模型,自2003年提出W來,逐步成為具有多種應(yīng)用場景的機(jī)器學(xué)習(xí)方法。其將文 本中詞語進(jìn)行統(tǒng)計映射到向量空間的方法十分符合高維特征空間到低維特征空間的轉(zhuǎn)換, 同時該方法的統(tǒng)計特性也保證了其在離散數(shù)據(jù)(如文本)上的良好分析能力。同時,LDA能夠 將詞與詞之間的語義關(guān)聯(lián)W概率的形式表現(xiàn)出來,十分符合無監(jiān)督觀點(diǎn)挖掘?qū)τ谖谋菊Z義 體現(xiàn)的需求,因此本發(fā)明的實(shí)施例選擇LDA來進(jìn)行數(shù)據(jù)處理和特征抽取。
[0061] 潛在的狄利克雷分布LDA是目前常見的特征降維方法,是一種層次的貝葉斯模型。 其主要思想是將計算出文本中每個詞在預(yù)先設(shè)定好的主題下的概率,并通過闊值限定篩選 出有用的特征及過濾掉無用的噪聲數(shù)據(jù)。
[0062] 基于此,處理模塊120用于將原始評論數(shù)據(jù)的初始特征空間設(shè)置為空,并從原始評 論數(shù)據(jù)中挑選一個特征,并計算在特征下每個單詞的條件概率,并設(shè)置一個闊值,W保留條 件概率大于闊值的單詞,并濾除條件概率小于闊值的詞匯,并重復(fù)執(zhí)行上述過程,直至得到 足夠維度的特征。
[0063] 其中,例如,設(shè)定原始評論數(shù)據(jù)中每個單詞W都具有其唯一的主題Z,則原始評論數(shù) 據(jù)中每個詞的優(yōu)化目標(biāo)化下式:
[0064]
[0065] 其中Z表示原始評論數(shù)據(jù)中每個詞都對應(yīng)的主題,W表示原始評論數(shù)據(jù)中的單詞,0 表示滿足Wa為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。也就是說,求解 有用的特征詞的概率問題就轉(zhuǎn)換成了求解文檔~主題的分布和主題~詞匯的分布的問題, 而運(yùn)兩個問題在給定文本集的前提下是可統(tǒng)計計算的,并在每個主題下將文本詞匯按條件 概率排序。由此可W知道,本發(fā)明的實(shí)施例通過設(shè)定不同的闊值適當(dāng)保留前若干個高概率 詞匯,從而完成特征篩取和降維。
[0066] 在上述示例中,主題模型LDA之所W能夠完成特征降維、特征抽取W及生成關(guān)聯(lián)規(guī) 則運(yùn)=個子任務(wù)的原因在于:運(yùn)=個子任務(wù)都用到了單詞的概率表現(xiàn)。運(yùn)樣,通過設(shè)定闊 值,可W將每個主題下出現(xiàn)概率低的詞篩取掉,完成特征降維任務(wù)。同時,根據(jù)高概率的單 詞抽取出特征詞、觀點(diǎn)詞并W此進(jìn)行關(guān)聯(lián)得到語義關(guān)聯(lián)規(guī)則。
[0067] 匹配模塊130用于根據(jù)語義關(guān)聯(lián)規(guī)則進(jìn)行顯式特征詞和觀點(diǎn)詞的匹配,得到顯式 特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈 式地形成特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,W完成觀點(diǎn)挖掘。
[0068] 具體地說,從上文描述中可知,主題模型(如LDA)能夠W統(tǒng)計概率的模式表現(xiàn)出詞 與詞之間的關(guān)聯(lián)性。運(yùn)一特性能夠十分良好的挖掘出特征詞和觀點(diǎn)詞。具體介紹如下:
[0069] 中文文本在進(jìn)行詞性標(biāo)注之后,可根據(jù)詞性選出候選特征詞和觀點(diǎn)詞。特征詞的 詞性往往是名詞或名詞詞組,如"屏幕"、"質(zhì)量"等;觀點(diǎn)詞則往往是動詞或形容詞W及副 詞,如"靈活"、"好看"、"適合妹子用"等。當(dāng)將正確的產(chǎn)品特征和相關(guān)的觀點(diǎn)詞匹配好之后, 就完成了對該產(chǎn)品的觀點(diǎn)挖掘。
[0070] 在本主題模型中,使用語義關(guān)聯(lián)規(guī)則來實(shí)現(xiàn)產(chǎn)品特征和觀點(diǎn)詞的匹配。而語義關(guān) 聯(lián)規(guī)則的挖掘則依賴于主題模型。當(dāng)?shù)玫矫總€主題下單詞的概率時,概率大的詞表示該詞 與主題語義關(guān)聯(lián)緊密,概率低表示該詞與該主題語義關(guān)聯(lián)稀疏。由于主題模型的特性,我們 可W人工定義主題詞作為特征種子詞,再利用主題模型對文本語義的概率描述得到詞與詞 之間的語義關(guān)聯(lián)。從特征種子詞出發(fā),結(jié)合特征詞、觀點(diǎn)詞的特有詞性及設(shè)定不同的闊值, 進(jìn)行特征抽取和觀點(diǎn)詞篩選和匹配,從而完成觀點(diǎn)挖掘。由于不同的語義文本在主題模型 的描述下關(guān)聯(lián)性自然不同,運(yùn)是由文本自身的特性形成的,即主題模型展現(xiàn)了文本內(nèi)部自 身的關(guān)聯(lián)性,通過極少的幾個種子詞作為起點(diǎn),挖掘出特征詞和相應(yīng)的觀點(diǎn)詞。因此,運(yùn)種 方法稱為自展式的觀點(diǎn)挖掘,即通過模型自身特性進(jìn)行挖掘,而不需過多借助人工標(biāo)定。
[0071] 進(jìn)一步地,在本發(fā)明的一個實(shí)施例中,匹配模塊130還用于獲取隱式特征評論,并 根據(jù)顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間 的關(guān)聯(lián)=者之間的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根據(jù)語義關(guān)聯(lián)規(guī)則得到相匹配的特 征詞。具體地說,特征詞不直接出現(xiàn)在評論中的句子稱為隱式評論,如:"媳婦挺喜歡用的, 就是不容易放進(jìn)口袋",在運(yùn)句關(guān)于手機(jī)的評論中,關(guān)于手機(jī)特性的特征詞"大小"或"手機(jī) 尺寸"并沒有出現(xiàn),然而人們都可W看出運(yùn)句評論是對手機(jī)大小進(jìn)行了描述。被隱式特征描 述的特征就稱為隱式特征。觀點(diǎn)挖掘的質(zhì)量很大一部分依賴于特征挖掘的優(yōu)劣。在W往的 工作中,觀點(diǎn)挖掘的研究者們往往關(guān)注顯示特征評論,即特征直接出現(xiàn)在句子中的評論,的 選取,而忽略了隱式特征的評論。然而隱式特征平均占整體特征的20%-30%,對觀點(diǎn)挖掘 結(jié)果有著不可忽視的影響。因此隱式特征評論的挖掘工作十分必要。通過自展式特征抽取, 我們已經(jīng)得到了顯式特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之間的關(guān)聯(lián)、觀點(diǎn)詞與 觀點(diǎn)詞之間的關(guān)聯(lián)。則根據(jù)運(yùn)S種關(guān)聯(lián)的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根據(jù)關(guān)聯(lián)規(guī) 則得到相匹配的特征詞,則可完善觀點(diǎn)挖掘的樣本,提高觀點(diǎn)挖掘效果。
[0072] 綜上,根據(jù)本發(fā)明實(shí)施例的基于主題模型的自展式特征選擇系統(tǒng),采用LDA運(yùn)種概 率生成模型來刻畫數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)而進(jìn)行特征降維和抽取,符合文本語義特點(diǎn),由文本 自身的特性出發(fā)得到挖掘結(jié)果,該系統(tǒng)能有效地抽取相關(guān)特征,擬棄無關(guān)特征和觀點(diǎn)詞,極 大減少了人工工作量和人工誤差。另外,通過挖掘隱式特征能進(jìn)一步完善觀點(diǎn)挖掘的樣本, 提高觀點(diǎn)挖掘效果。
[0073] 在本說明書的描述中,參考術(shù)語"一個實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任何 的一個或多個實(shí)施例或示例中W合適的方式結(jié)合。
[0074]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對運(yùn)些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項(xiàng)】
1. 一種基于主題模型的自展式特征選擇方法,其特征在于,包括以下步驟: SI:獲取原始評論數(shù)據(jù); S2:選取主題模型,并根據(jù)所述主題模型對所述原始評論數(shù)據(jù)進(jìn)行特征降維、顯式特征 詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語義關(guān)聯(lián)規(guī)則;以及 S3:根據(jù)所述語義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的匹配,得到顯式特征詞與 特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián),鏈?zhǔn)降匦纬?特征詞和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。2. 根據(jù)權(quán)利要求1所述的基于主題模型的自展式特征選擇方法,其特征在于,還包括: 獲取隱式特征評論,并根據(jù)所述顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之 間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)三者之間的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根 據(jù)所述語義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。3. 根據(jù)權(quán)利要求1所述的基于主題模型的自展式特征選擇方法,其特征在于,所述主題 模型為潛在的狄利克雷分布LDA。4. 根據(jù)權(quán)利要求3所述的基于主題模型的自展式特征選擇方法,其特征在于,所述S2進(jìn) 一步包括: S21:將所述原始評論數(shù)據(jù)的初始特征空間設(shè)置為空; S22:從所述原始評論數(shù)據(jù)中挑選一個特征,并計算在所述特征下每個單詞的條件概 率; S23:設(shè)置一個閾值,以保留條件概率大于所述閾值的單詞,并濾除條件概率小于所述 閾值的詞匯; S24:重復(fù)執(zhí)行所述步驟S22至步驟S23,直至得到足夠維度的特征。5. 根據(jù)權(quán)利要求4所述的基于主題模型的自展式特征選擇方法,其特征在于,所述原始 評論數(shù)據(jù)中每個單詞都具有其唯一的主題,則原始評論數(shù)據(jù)中每個詞的優(yōu)化目標(biāo)如下式:其中z表示原始評論數(shù)據(jù)中每個單詞都對應(yīng)的主題,w表示原始評論數(shù)據(jù)中的單詞,Θ表 示滿足以α為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。6. -種基于主題模型的自展式特征選擇系統(tǒng),其特征在于,包括: 獲取模塊,所述獲取模塊用于獲取原始評論數(shù)據(jù); 處理模塊,所述處理模塊用于選取主題模型,并根據(jù)所述主題模型對所述原始評論數(shù) 據(jù)進(jìn)行特征降維、顯式特征詞和觀點(diǎn)詞的抽取,并根據(jù)所述顯式特征詞和觀點(diǎn)詞生成語義 關(guān)聯(lián)規(guī)則; 匹配模塊,所述匹配模塊用于根據(jù)所述語義關(guān)聯(lián)規(guī)則進(jìn)行所述顯式特征詞和觀點(diǎn)詞的 匹配,得到顯式特征詞與特征詞之間的關(guān)聯(lián),特征詞與觀點(diǎn)詞之間的關(guān)聯(lián),觀點(diǎn)詞與觀點(diǎn)詞 之間的關(guān)聯(lián),鏈?zhǔn)降匦纬商卣髟~和觀點(diǎn)詞的關(guān)聯(lián)規(guī)則,以完成觀點(diǎn)挖掘。7. 根據(jù)權(quán)利要求6所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述匹配 模塊還用于: 獲取隱式特征評論,并根據(jù)所述顯示特征詞與特征詞之間的關(guān)聯(lián)、特征詞與觀點(diǎn)詞之 間的關(guān)聯(lián)、觀點(diǎn)詞與觀點(diǎn)詞之間的關(guān)聯(lián)三者之間的傳導(dǎo)性,將隱式特征評論中的觀點(diǎn)詞根 據(jù)所述語義關(guān)聯(lián)規(guī)則得到相匹配的特征詞。8. 根據(jù)權(quán)利要求6所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述主題 模型為潛在的狄利克雷分布LDA。9. 根據(jù)權(quán)利要求8所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述處理 模塊用于:將所述原始評論數(shù)據(jù)的初始特征空間設(shè)置為空,并從所述原始評論數(shù)據(jù)中挑選 一個特征,并計算在所述特征下每個單詞的條件概率,并設(shè)置一個閾值,以保留條件概率大 于所述閾值的單詞,并濾除條件概率小于所述閾值的詞匯,并重復(fù)執(zhí)行上述過程,直至得到 足夠維度的特征。10. 根據(jù)權(quán)利要求9所述的基于主題模型的自展式特征選擇系統(tǒng),其特征在于,所述原 始評論數(shù)據(jù)中每個單詞都具有其唯一的主題,則原始評論數(shù)據(jù)中每個詞的優(yōu)化目標(biāo)如下 式:其中z表示原始評論數(shù)據(jù)中每個單詞都對應(yīng)的主題,w表示原始評論數(shù)據(jù)中的單詞,Θ表 示滿足以α為超參數(shù)的狄利克雷分布,N表示原始評論數(shù)據(jù)中的單詞數(shù)量。
【文檔編號】G06F17/30GK106021413SQ201610318849
【公開日】2016年10月12日
【申請日】2016年5月13日
【發(fā)明人】徐華, 張帆, 孫曉民, 鄧俊輝
【申請人】清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1