垃圾短信的識別方法、裝置和具有該裝置的移動通信終端的制作方法

文檔序號：7857361閱讀：194來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：垃圾短信的識別方法、裝置和具有該裝置的移動通信終端的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通信領(lǐng)域，具體而言，涉及一種垃圾短信的識別方法、識別裝置和具有該裝置的移動通信終端。
背景技術(shù)：
據(jù)統(tǒng)計，中國手機用戶數(shù)量達到數(shù)億，網(wǎng)絡(luò)調(diào)查有98. I %的手機用戶被垃圾短信騷擾,58. 2%的用戶每日至少會收到I至3條垃圾短信,19. 6%用戶每天會收到3至5條垃圾短信。雖然整治垃圾短信的方法層出不窮，但始終無法杜絕垃圾短信的傳播。
目前，垃圾短信過濾一般都是采用預(yù)設(shè)的關(guān)鍵詞匹配過濾，這種方法需要采集大量的垃圾短信樣本，從中抽取出敏感關(guān)鍵詞建立關(guān)鍵詞詞庫進行過濾。在上述方法中存在很多問題，第一，需要維護大量的關(guān)鍵詞詞庫，需要有垃圾短信樣本來采集關(guān)鍵詞。第二，詞庫還需要不斷更新補充，產(chǎn)生新的垃圾短信時，要采集新的垃圾短信關(guān)鍵詞。第三，發(fā)送方完全可以避開各種敏感關(guān)鍵詞，采用各種手段規(guī)避掉關(guān)鍵詞，如在關(guān)鍵詞中間穿插特殊字符，采用與關(guān)鍵詞同音的漢字代替，這樣不影響垃圾短信的可讀性，收件人完全可以通過同音詞猜測出短信的真實內(nèi)容?？偠灾?現(xiàn)有技術(shù)中的垃圾短信識別方法不能有效識別出垃圾短信。針對相關(guān)技術(shù)中垃圾短信處理方法屏蔽垃圾短信效果差的問題，目前尚未提出有效的解決方案。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種垃圾短信的識別方法、識別裝置和具有該裝置的移動通信終端，以解決垃圾短信處理方法屏蔽垃圾短信效果差的問題。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的一個方面，提供了一種垃圾短信的識別方法。根據(jù)本發(fā)明的垃圾短信的識別方法包括提取短信的短信內(nèi)容；匹配短信內(nèi)容與預(yù)設(shè)的正則表達式；以及當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短目。進一步地，預(yù)設(shè)的正則表達式包括第一正則表達式和第二正則表達式，其中，匹配短信內(nèi)容與預(yù)設(shè)的正則表達式，當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短信包括匹配短信內(nèi)容與第一正則表達式；當(dāng)短信內(nèi)容與第一正則表達式匹配成功時，確定短信為垃圾短信；當(dāng)短信內(nèi)容與第一正則表達式匹配失敗時，匹配短信內(nèi)容與第二正則表達式；以及當(dāng)短信內(nèi)容與第二正則表達式匹配成功，確定短信為垃圾短信。進一步地，預(yù)設(shè)的正則表達式包括以下任意一個或多個正則表達式用于匹配手機號碼的正則表達式；用于匹配固定電話的電話號碼的正則表達式；用于匹配銀行賬號的正則表達式；用于匹配網(wǎng)址URL的正則表達式；用于匹配IP地址的正則表達式；以及用于匹配網(wǎng)絡(luò)ID號的正則表達式。進一步地，匹配短信內(nèi)容與預(yù)設(shè)的正則表達式包括將短信內(nèi)容中與阿拉伯?dāng)?shù)字發(fā)音相同的文字轉(zhuǎn)換為對應(yīng)的阿拉伯?dāng)?shù)字，得到轉(zhuǎn)換內(nèi)容；匹配轉(zhuǎn)換內(nèi)容與預(yù)設(shè)的正則表達式。進一步地，在提取短信的短信內(nèi)容之前，該方法還包括提取短信的來信號碼；以及根據(jù)來信號碼判斷短信是否為陌生短信，其中，提取短信的短信內(nèi)容包括當(dāng)短信為陌生短信時，提取短信的短信內(nèi)容。進一步地，根據(jù)來信號碼判斷短信是否為陌生短信包括判斷來信號碼是否在聯(lián)系人號碼列表和通話歷史記錄中，其中，當(dāng)來信號碼不在聯(lián)系人號碼列表和通話歷史記錄中時，該短信為陌生短信。進一步地，在提取短信的短信內(nèi)容之前，該方法還包括提取短信的來信號碼；判斷來信號碼是否滿足預(yù)設(shè)的號碼過濾條件，其中，提取短信的短信內(nèi)容包括當(dāng)來信號碼不滿足預(yù)設(shè)的號碼過濾條件時，提取短信的短信內(nèi)容。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的另一方面，提供了一種垃圾短信的識別裝置，該識別裝置用于執(zhí)行上述本發(fā)明所提供的任一種垃圾短信的識別方法。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的另一方面，提供了一種垃圾短信的識別裝置，包括提取模塊，用于提取短信的短信內(nèi)容；匹配模塊，用于匹配短信內(nèi)容與預(yù)設(shè)的正則表達式；以及確定模塊，用于當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短目。進一步地，預(yù)設(shè)的正則表達式包括第一正則表達式和第二正則表達式，其中，匹配模塊包括第一匹配子模塊，用于匹配短信內(nèi)容與第一正則表達式；以及第二匹配子模塊，用于當(dāng)短信內(nèi)容與第一正則表達式匹配失敗時，匹配短信內(nèi)容與第二正則表達式，確定模塊包括第一確定子模塊，用于當(dāng)短信內(nèi)容與第一正則表達式匹配成功時，確定短信為垃圾短信；以及第二確定子模塊，用于當(dāng)短信內(nèi)容與第二正則表達式匹配成功時，確定短信為垃圾短信。進一步地，預(yù)設(shè)的正則表達式包括以下任意一個或多個正則表達式用于匹配手機號碼的正則表達式；用于匹配固定電話的電話號碼的正則表達式；用于匹配銀行賬號的正則表達式；用于匹配網(wǎng)址URL的正則表達式；用于匹配IP地址的正則表達式；以及用于匹配網(wǎng)絡(luò)ID號的正則表達式。進一步地，匹配模塊包括轉(zhuǎn)換子模塊，用于將短信內(nèi)容中與阿拉伯?dāng)?shù)字發(fā)音相同的文字轉(zhuǎn)換為對應(yīng)的阿拉伯?dāng)?shù)字，得到轉(zhuǎn)換內(nèi)容；以及第三匹配子模塊，用于匹配轉(zhuǎn)換內(nèi)容與預(yù)設(shè)的正則表達式。為了實現(xiàn)上述目的，根據(jù)本發(fā)明的再一方面，提供了一種移動通信終端，該移動通信終端包括本發(fā)明提供的任意一種垃圾短信的識別裝置。通過本發(fā)明，采用包括以下步驟的垃圾短信的識別方法提取短信的短信內(nèi)容；匹配短信內(nèi)容與預(yù)設(shè)的正則表達式；以及當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短信，能夠提高垃圾短信的識別準(zhǔn)確度，解決了垃圾短信處理方法屏蔽垃圾短信效果差的問題，進而達到了有效屏蔽垃圾短信的效果。

構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I是根據(jù)本發(fā)明第一實施例的垃圾短信的識別方法的流程圖；圖2是根據(jù)本發(fā)明第二實施例的垃圾短信的識別方法的流程圖；圖3是根據(jù)本發(fā)明第三實施例的垃圾短信的識別方法的流程圖；圖4是根據(jù)本發(fā)明第一實施例的垃圾短信的識別裝置的框圖；以及圖5是根據(jù)本發(fā)明第二實施例的垃圾短信的識別裝置的框圖。
具體實施例方式需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
圖I是根據(jù)本發(fā)明第一實施例的垃圾短信的識別方法的流程圖，如圖I所示，該方法包括如下的步驟S102至步驟S106 步驟S102 :提取短信的短信內(nèi)容，得到短信內(nèi)容文本。步驟S104:匹配短信內(nèi)容與預(yù)設(shè)的正則表達式，其中，預(yù)設(shè)的正則表達式根據(jù)垃圾短信的短信內(nèi)容特點設(shè)置，例如垃圾短信中一般會包括聯(lián)系信息、賬號信息等內(nèi)容，通過預(yù)設(shè)的正則表達式來表示這一類內(nèi)容，則通過該步驟即可實現(xiàn)短信內(nèi)容與聯(lián)系信息、賬號信息等內(nèi)容的匹配。步驟S106 :當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短信，相應(yīng)地，當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配失敗時，確定短信為正常短信，也即，當(dāng)短信內(nèi)容中包括有聯(lián)系信息、賬號信息等信息時，將該短信確定為垃圾短信。采用該實施例提供的垃圾短信的識別方法，通過預(yù)設(shè)正則表達式與短信內(nèi)容匹配的方式過濾短信，與現(xiàn)有技術(shù)中預(yù)設(shè)關(guān)鍵詞過濾的方法相比，極大地增加了過濾密度，從而能夠更加準(zhǔn)確的識別垃圾短信，從而有效地屏蔽垃圾短信。圖2是根據(jù)本發(fā)明第二實施例的垃圾短信的識別方法的流程圖，如圖2所示，包括以下幾個步驟步驟(I):當(dāng)有新短信時，提取出短信的詳細內(nèi)容，包括短信的來信號碼和短信內(nèi)容。步驟(2):根據(jù)短信的來信號碼判斷短信是否為陌生短信，優(yōu)選地，判斷來信號碼是否在聯(lián)系人號碼列表和通話歷史記錄中，若在聯(lián)系人號碼列表和通話歷史記錄中均不存在該來信號碼，則將該短信視為陌生短信，若在聯(lián)系人號碼列表或通話歷史記錄中存在該來信號碼，則將該短信視為正常短信，不做后續(xù)處理。通過該步驟，在判斷是否為垃圾短信之前，首先對短信來源進行判定，能夠避免將用戶聯(lián)系人發(fā)送的短信作為垃圾短信。步驟(3):若短信為陌生短信時，判斷短信的來信號碼是否滿足預(yù)設(shè)的號碼過濾條件，當(dāng)來信號碼滿足預(yù)設(shè)的號碼過濾條件，則直接將該短信視為垃圾短信，結(jié)束短信識別過程。從而能夠?qū)⑺袧M足號碼過濾條件的陌生短信均視為垃圾短信。優(yōu)選地，可采用如下的任一種或者同時采用如下的兩種方式實現(xiàn)步驟(3)第一判斷來信號碼是否在預(yù)設(shè)的拒絕區(qū)域內(nèi)，當(dāng)來信號碼屬于預(yù)設(shè)的拒絕區(qū)域，說明來信號碼滿足預(yù)設(shè)的號碼過濾條件，則將該短信視為垃圾短信，其中，預(yù)設(shè)的拒絕區(qū)域可以包括一個或多個區(qū)域。通過該方式，能夠進一步增加垃圾短信識別方法的靈活性，可根據(jù)用戶需要自動將固定來源區(qū)域的短信視為垃圾短信。第二判斷來信號碼是否在預(yù)設(shè)的接受區(qū)域內(nèi)，當(dāng)來信號碼不屬于預(yù)設(shè)的接受區(qū)域，說明來信號碼滿足預(yù)設(shè)的號碼過濾條件，則將該短信視為垃圾短信，其中，預(yù)設(shè)的接受區(qū)域可以包括一個或多個區(qū)域。通過該方式，能夠進一步增加垃圾短信識別方法的靈活性，可根據(jù)用戶需要自動將除固定來源區(qū)域之外的所有陌生短信均視為垃圾短信。第三首先判斷來信號碼中是否包含國家代碼，若包含國家代碼，如+86，則將來信號碼中的國家代碼去掉，進一步判斷去掉國家代碼后的號碼長度是否滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，若不包含國家代碼，則直接判斷來信號碼長度是否滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，如設(shè)置預(yù)設(shè)垃圾短信號碼長度規(guī)則為號碼長度超過X位視為垃圾短信，當(dāng)去掉國家代碼后的號碼長度或不包含國家代碼的來信號碼長度滿足預(yù)設(shè)垃圾短信號碼長度規(guī)貝U，說明來信號碼滿足預(yù)設(shè)的號碼過濾條件，則將該短信視為垃圾短信。通過該方式，能夠進一步將來信號碼不滿足正常通信號碼長度規(guī)則的短信視為垃圾短信，增加了垃圾短信過濾強度，例如，能夠?qū)硇盘柎a為非移動電話號碼的短信視為垃圾短信。步驟(4):當(dāng)來信號碼不滿足預(yù)設(shè)的號碼過濾條件，將短信文本內(nèi)容逐一與預(yù)設(shè)的多個正則表達式進行匹配，若其中任一表達式匹配成功，則視為垃圾短信，否則將此短信視為正常短信。采用該實施例提供垃圾短信的識別方法，將短信內(nèi)容與用于表示銀行賬號和聯(lián)系方式等信息的正則表達式進行匹配，只要匹配成功，即可說明短信內(nèi)容中存在銀行賬號或聯(lián)系方式的內(nèi)容，從而能夠?qū)y帶銀行賬號、聯(lián)系方式等內(nèi)容的陌生人短信判斷為垃圾短信，解決了預(yù)設(shè)海量關(guān)鍵詞的問題，有效地屏蔽垃圾短信。此外，在進行短信內(nèi)容識別前，進行號碼過濾條件判斷，包括號碼來源地、號碼長度規(guī)則等，使得垃圾短信識別方法更加靈活，滿足用戶的個性化要求。需要說明的是，上述的步驟(3)與步驟(2)可互換執(zhí)行順序。優(yōu)選地，在上述的步驟(4)中，根據(jù)預(yù)設(shè)的多個正則表達式逐一進行匹配時，只要與一個正則表達式匹配成功后便停止匹配，將此短信視為垃圾短信，當(dāng)與一個正則表達式匹配失敗時，進行下一個正則表達式的匹配，直至所有正則表達式匹配結(jié)束。優(yōu)選地，預(yù)設(shè)的多個正則表達式包括以下任意一個或多個正則表達式匹配Email 地址的正則表達式\w+([-+· ] \w+) *@\w+([-· ] \w+) *\· \w+ ([-· ] \w+) * ；匹配網(wǎng)址URL的正則表達式[a-zA_z] + ://r\s]+ ；匹配鏈接的正則表達式[\w] (. [\w])+ ；匹配帶區(qū)號固定電話號碼的正則表達式(\d{3，4}) - \d{7，8}；匹配不帶區(qū)號固定電話號碼的正則表達式\d{7，8}；匹配11位手機號碼的正則表達式一 \d{ll}；用于匹配11位手機號碼的正則表達式二 [1-9]
{10}；匹配騰訊QQ號的正則表達式[1-9]
{4, }；匹配銀行賬號的正則表達式\d{16，19}；匹配ip地址的正則表達式\d{l, 3} (. \d{l, 3}) {3}。需要說明的是，上述列舉的正則表達式的形式僅僅是舉例說明，本發(fā)明不限于此，正則表達式可以有多種寫法。進一步優(yōu)選地，在上述步驟(4)中，所列舉的正則表達式是針對正常情況下利用阿拉伯?dāng)?shù)字表示的各種號碼，除此之外，還存在以各種手段規(guī)避被數(shù)字表達式識別的垃圾短信，如在阿拉伯表示的號碼中間穿插特殊字符，如在電話號碼中添加空格或其他字符、在銀行賬號中間以空格間隔等形式，均可以采用更復(fù)雜的正則表達式迅速高效的進行匹配，以識別變形的垃圾短信。優(yōu)選地，預(yù)設(shè)的多個匹配規(guī)避手段正則表達式包括以下任意一個或多個正則表達式匹配穿插間隔符的電話號碼的正則表達式一 \d(\D*\d) {6，7}；匹配穿插間隔符的電話號碼的正則表達式二 \d(\D \d) {6，7}；匹配穿插間隔符帶區(qū)號的電話號碼的正則表達式三\d(\D \d) {9，11}；匹配穿插間隔符的手機號碼的正則表達式一 \d(\D \d) {10}；匹配穿插間隔符的手機號碼的正則表達式二 \d(\D*\d) {10}；匹配穿插間隔符銀行賬號的正則表達式\d(\D \d) {15，18}。進一步優(yōu)選地，為了避免垃圾短信中用與阿拉伯?dāng)?shù)字發(fā)同音或相似發(fā)音的漢字表示數(shù)字而得不到有效屏蔽時，在步驟(4)中，采用如圖3所示的步驟實現(xiàn)·短信內(nèi)容與預(yù)設(shè)正則表達式的匹配，具體地，首先將短信文本內(nèi)容中與阿拉伯發(fā)同音的漢字轉(zhuǎn)換成阿拉伯?dāng)?shù)字，然后再將轉(zhuǎn)換后的內(nèi)容與正則表達式匹配，匹配成功則將此短信視為垃圾短信，否則，短目為正常短目。本發(fā)明實施例還提供了垃圾短信的識別裝置，以下對本發(fā)明實施例所提供的垃圾短信的識別裝置進行介紹。需要說明的是，在本發(fā)明實施例的垃圾短信的識別方法可以通過本發(fā)明實施例所提供的垃圾短信的識別裝置來執(zhí)行，本發(fā)明實施例的垃圾短信的識別裝置也可以用于執(zhí)行本發(fā)明實施例所提供的垃圾短信的識別方法。圖4是根據(jù)本發(fā)明第一實施例的垃圾短信的識別裝置的框圖，如圖4所示，該垃圾短信的識別裝置包括提取模塊20、匹配模塊40和確定模塊60。提取模塊20用于提取短信的短信內(nèi)容，得到短信內(nèi)容文本。匹配模塊40用于匹配短信內(nèi)容與預(yù)設(shè)的正則表達式，其中，預(yù)設(shè)的正則表達式根據(jù)垃圾短信的短信內(nèi)容特點設(shè)置，例如垃圾短信中一般會包括聯(lián)系信息、賬號信息等內(nèi)容，通過預(yù)設(shè)的正則表達式來表示這一類內(nèi)容，則通過該步驟即可實現(xiàn)短信內(nèi)容與聯(lián)系信息、賬號信息等內(nèi)容的匹配。確定模塊60用于當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短信，相應(yīng)地，當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配失敗時，確定短信為正常短信，也即，當(dāng)短信內(nèi)容中包括有聯(lián)系信息、賬號信息等信息時，將該短信確定為垃圾短信。采用該實施例提供的垃圾短信的識別裝置，通過預(yù)設(shè)正則表達式與短信內(nèi)容匹配的方式過濾短信，與現(xiàn)有技術(shù)中預(yù)設(shè)關(guān)鍵詞過濾的方法相比，極大地增加了過濾密度，從而能夠更加準(zhǔn)確的識別垃圾短信，從而有效地屏蔽垃圾短信。圖5是根據(jù)本發(fā)明第二實施例的垃圾短信的識別裝置的框圖，如圖5所示，該垃圾短信的識別裝置包括短信提取模塊、陌生人短信判定模塊、來信號碼規(guī)則判定模塊、短信歸屬地判定模塊和正則表達式匹配模塊。當(dāng)有新短信時，短信提取模塊提取出短信的詳細內(nèi)容，包括短信的來信號碼、短短信內(nèi)容。在短信提取模塊提取出短信的詳細內(nèi)容后，陌生人短信判定模塊根據(jù)短信的來信號碼判斷短信是否為陌生短信，優(yōu)選地，陌生人短信判定模塊判斷來信號碼是否在聯(lián)系人號碼列表和通話歷史記錄中，若在聯(lián)系人號碼列表和通話歷史記錄中均不存在該來信號碼，則將該短信視為陌生短信，若在聯(lián)系人號碼列表或通話歷史記錄中存在該來信號碼，則將該短信視為正常短信，不做后續(xù)處理。通過陌生人短信判定模塊，在判斷是否為垃圾短信之前，首先對短信來源進行判定，能夠避免將用戶聯(lián)系人發(fā)送的短信作為垃圾短信。當(dāng)陌生人短信判定模塊確定該短信為陌生短信后，來信號碼規(guī)則判定模塊首先判斷來信號碼中是否包含國家代碼，若包含國家代碼，如+86，則將來信號碼中的國家代碼去掉，進一步判斷去掉國家代碼后的號碼長度是否滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，若不包含國家代碼，則直接判斷來信號碼長度是否滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，如設(shè)置預(yù)設(shè)垃圾短信號碼長度規(guī)則為號碼長度超過X位視為垃圾短信，當(dāng)去掉國家代碼后的號碼長度或不包含國家代碼的來信號碼長度滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，則將該短信視為垃圾短信。通過該來信號碼規(guī)則判定模塊，能夠進一步將來信號碼不滿足正常通信號碼長度規(guī)則的短信視為垃圾短信，增加了垃圾短信過濾強度，例如，能夠?qū)硇盘柎a為非移動電話號碼的短信視為垃圾短信。若來信號碼規(guī)則判定模塊確定來信號碼不滿足預(yù)設(shè)垃圾短信號碼長度規(guī)則，則短信歸屬地判定模塊判斷來信號碼是否在預(yù)設(shè)的拒絕區(qū)域內(nèi)，當(dāng)來信號碼屬于預(yù)設(shè)的拒絕區(qū)域，則直接將該短信視為垃圾短信，結(jié)束短信識別過程，其中，預(yù)設(shè)的拒絕區(qū)域可以包括一個或多個區(qū)域；或者，判斷來信號碼是否在預(yù)設(shè)的接受區(qū)域內(nèi)，當(dāng)來信號碼不屬于預(yù)設(shè)的接受區(qū)域，則直接將該短信視為垃圾短信，結(jié)束短信識別過程，從而能夠?qū)⑺挟惖啬吧绦啪暈槔绦拧Ｍㄟ^短信歸屬地判定模塊，能夠進一步增加垃圾短信識別方法的靈活性，可根據(jù)用戶需要自動將來源為部分區(qū)域的短信視為垃圾短信。若短信歸屬地判定模塊度確定來信號碼不屬于預(yù)設(shè)的拒絕區(qū)域，或者來信號碼屬于預(yù)設(shè)的接受區(qū)域時，正則表達式匹配模塊將短信提取模塊提取出的短信內(nèi)容與預(yù)設(shè)的正則表達式進行匹配，該處的預(yù)設(shè)正則表達式可依據(jù)垃圾短信的特征進行設(shè)置，例如常見的八大類詐騙垃圾短信提供sim卡無卡復(fù)制型、直接匯款型、換賬號匯款型、滿世界喊爹媽型、銀聯(lián)卡被盜用消費型、高薪招聘型、提供低息貸款型和抽中大獎型，短信的具體內(nèi)容具有以下共性具有銀行賬號或聯(lián)系方式，其中，聯(lián)系方式又包括固定電話號碼、移動電話號碼、網(wǎng)址、郵箱地址、即時通訊工具號碼等信息，因而，將預(yù)設(shè)正則表達式設(shè)置為表示銀行賬號或聯(lián)系方式的規(guī)則，當(dāng)匹配成功時，說明該短信的短信內(nèi)容中存在銀行賬號或聯(lián)系方式，屬于垃圾短信，當(dāng)匹配失敗時，說明該短信是正常短信。采用該實施例提供垃圾短信的識別裝置，首先通過短信提取模塊提取短信的詳細信息，然后通過各種判定模塊對提取到的信息進行判斷，以靈活地滿足用戶的個性化要求。當(dāng)各種判定模塊均未將短信判定為垃圾短信，且該短信為陌生人短信時，正則表達式匹配模塊將短信內(nèi)容與預(yù)設(shè)的正則表達式進行匹配，從而能夠?qū)y帶銀行賬號、聯(lián)系方式等內(nèi)容的陌生人短信判斷為垃圾短信，解決了預(yù)設(shè)海量關(guān)鍵詞的問題，有效地屏蔽垃圾短信。優(yōu)選地，預(yù)設(shè)的正則表達式包括多個正則表達式，正則表達式匹配模塊將短信文本內(nèi)容逐一與多個正則表達式進行匹配，只要與一個正則表達式匹配成功后便停止匹配，將此短信視為垃圾短信，當(dāng)與一個正則表達式匹配失敗時，進行下一個正則表達式的匹配，直至所有正則表達式匹配結(jié)束。其中，預(yù)設(shè)的多個正則表達式包括上文中，在識別方法實施例描述中的任意幾個正則表達式，該處不再贅述。進一步優(yōu)選地，為了避免垃圾短信中用與阿拉伯?dāng)?shù)字發(fā)同音或相似發(fā)音的漢字表示數(shù)字而得不到有效屏蔽時，正則表達式匹配模塊包括轉(zhuǎn)換子模塊和匹配子模塊，其中，轉(zhuǎn)換子模塊用于將短信內(nèi)容中與阿拉伯?dāng)?shù)字發(fā)同音的文字轉(zhuǎn)換為相應(yīng)的阿拉伯?dāng)?shù)字，得到轉(zhuǎn)換內(nèi)容，匹配子模塊將轉(zhuǎn)換內(nèi)容與正則表達式匹配，當(dāng)轉(zhuǎn)換內(nèi)容與正則表達式匹配成功是，說明正則表達式匹配模塊匹配成功。
本發(fā)明實施例所提供的任意一種垃圾短信的識別裝置可設(shè)置于移動通信終端，也可設(shè)置于通信公司的短信中心部署，當(dāng)識別裝置設(shè)置于短信中心部署時，為了便于陌生人短信的判斷，可在短信中心建立號碼通話歷史列表，通過通話歷史列表識別是否是陌生人短目。從以上的描述中，可以看出，本發(fā)明實現(xiàn)了如下技術(shù)效果提高了垃圾短信的識別準(zhǔn)確度，從而有效地屏蔽了垃圾短信。需要說明的是，在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。顯然，本領(lǐng)域的技術(shù)人員應(yīng)該明白，上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn)，它們可以集中在單個的計算裝置上，或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上，可選地，它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn)，從而，可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行，或者將它們分別制作成各個集成電路模塊，或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種垃圾短信的識別方法，其特征在于，包括提取短信的短信內(nèi)容；匹配所述短信內(nèi)容與預(yù)設(shè)的正則表達式；以及當(dāng)所述短信內(nèi)容與所述預(yù)設(shè)的正則表達式匹配成功時，確定所述短信為垃圾短信。
2.根據(jù)權(quán)利要求I所述的垃圾短信的識別方法，其特征在于，所述預(yù)設(shè)的正則表達式包括第一正則表達式和第二正則表達式，其中，匹配所述短信內(nèi)容與預(yù)設(shè)的正則表達式，當(dāng)所述短信內(nèi)容與所述預(yù)設(shè)的正則表達式匹配成功時，確定所述短信為垃圾短信包括匹配所述短信內(nèi)容與所述第一正則表達式；當(dāng)所述短信內(nèi)容與所述第一正則表達式匹配成功時，確定所述短信為垃圾短信；當(dāng)所述短信內(nèi)容與所述第一正則表達式匹配失敗時，匹配所述短信內(nèi)容與所述第二正則表達式；以及當(dāng)所述短信內(nèi)容與所述第二正則表達式匹配成功時，確定所述短信為垃圾短信。
3.根據(jù)權(quán)利要求I所述的垃圾短信的識別方法，其特征在于，所述預(yù)設(shè)的正則表達式包括以下任意一個或多個正則表達式用于匹配手機號碼的正則表達式；用于匹配固定電話的電話號碼的正則表達式；用于匹配銀行賬號的正則表達式；用于匹配網(wǎng)址URL的正則表達式；用于匹配IP地址的正則表達式；以及用于匹配網(wǎng)絡(luò)ID號的正則表達式。
4.根據(jù)權(quán)利要求I所述的垃圾短信的識別方法，其特征在于，匹配所述短信內(nèi)容與預(yù)設(shè)的正則表達式包括將所述短信內(nèi)容中與阿拉伯?dāng)?shù)字發(fā)音相同的文字轉(zhuǎn)換為對應(yīng)的阿拉伯?dāng)?shù)字，得到轉(zhuǎn)換內(nèi)容；匹配所述轉(zhuǎn)換內(nèi)容與所述預(yù)設(shè)的正則表達式。
5.根據(jù)權(quán)利要求I至4中任一項所述的垃圾短信的識別方法，其特征在于，在提取短信的短信內(nèi)容之前，所述方法還包括提取所述短信的來信號碼；以及根據(jù)所述來信號碼判斷所述短信是否為陌生短信，其中，提取短信的短信內(nèi)容包括當(dāng)所述短信為陌生短信時，提取所述短信的短信內(nèi)容。
6.根據(jù)權(quán)利要求5所述的垃圾短信的識別方法，其特征在于，根據(jù)所述來信號碼判斷所述短信是否為陌生短信包括判斷所述來信號碼是否在聯(lián)系人號碼列表和通話歷史記錄中，其中，當(dāng)所述來信號碼不在所述聯(lián)系人號碼列表和所述通話歷史記錄中時，所述短信為陌生短信。
7.根據(jù)權(quán)利要求I至4中任一項所述的垃圾短信的識別方法，其特征在于，在提取短信的短信內(nèi)容之前，所述方法還包括提取所述短信的來信號碼；判斷所述來信號碼是否滿足預(yù)設(shè)的號碼過濾條件，其中，提取短信的短信內(nèi)容包括當(dāng)所述來信號碼不滿足所述預(yù)設(shè)的號碼過濾條件吋，提取所述短信的短信內(nèi)容。
8.一種垃圾短信的識別裝置，其特征在于，包括提取模塊，用于提取短信的短信內(nèi)容；匹配模塊，用于匹配所述短信內(nèi)容與預(yù)設(shè)的正則表達式；以及確定模塊，用于當(dāng)所述短信內(nèi)容與所述預(yù)設(shè)的正則表達式匹配成功時，確定所述短信為垃圾短信。
9.根據(jù)權(quán)利要求8所述的垃圾短信的識別裝置，其特征在干，所述預(yù)設(shè)的正則表達式包括第一正則表達式和第二正則表達式，其中，所述匹配模塊包括第一匹配子模塊，用于匹配所述短信內(nèi)容與所述第一正則表達式；以及第二匹配子模塊，用于當(dāng)所述短信內(nèi)容與所述第一正則表達式匹配失敗時，匹配所述短信內(nèi)容與所述第二正則表達式，所述確定模塊包括第一確定子模塊，用于當(dāng)所述短信內(nèi)容與所述第一正則表達式匹配成功時，確定所述短信為垃圾短信；以及第ニ確定子模塊，用于當(dāng)所述短信內(nèi)容與所述第ニ正則表達式匹配成功時，確定所述短信為垃圾短信。
10.根據(jù)權(quán)利要求8所述的垃圾短信的識別裝置，其特征在于，所述預(yù)設(shè)的正則表達式包括以下任意一個或多個正則表達式用于匹配手機號碼的正則表達式；用于匹配固定電話的電話號碼的正則表達式；用于匹配銀行賬號的正則表達式；用于匹配網(wǎng)址URL的正則表達式；用于匹配IP地址的正則表達式；以及用于匹配網(wǎng)絡(luò)ID號的正則表達式。
11.根據(jù)權(quán)利要求8所述的垃圾短信的識別裝置，其特征在于，所述匹配模塊包括轉(zhuǎn)換子模塊，用于將所述短信內(nèi)容中與阿拉伯?dāng)?shù)字發(fā)音相同的文字轉(zhuǎn)換為對應(yīng)的阿拉伯?dāng)?shù)字，得到轉(zhuǎn)換內(nèi)容；以及第三匹配子模塊，用于匹配所述轉(zhuǎn)換內(nèi)容與所述預(yù)設(shè)的正則表達式。
12.—種移動通信終端，其特征在于，包括權(quán)利要求8至11中任一項所述的垃圾短信的識別裝置。
全文摘要
本發(fā)明公開了一種垃圾短信的識別方法、識別裝置和具有該裝置的移動通信終端。該識別方法包括提取短信的短信內(nèi)容；匹配短信內(nèi)容與預(yù)設(shè)的正則表達式；以及當(dāng)短信內(nèi)容與預(yù)設(shè)的正則表達式匹配成功時，確定短信為垃圾短信，能夠提高垃圾短信的識別準(zhǔn)確度，從而能夠有效屏蔽垃圾短信。
文檔編號H04M1/725GK102801859SQ20121027515
公開日2012年11月28日申請日期2012年8月3日優(yōu)先權(quán)日2012年8月3日
發(fā)明者陳偉申請人:陳偉

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳偉
技術(shù)所有人：陳偉
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>