專(zhuān)利名稱(chēng):一種建立郵件數(shù)據(jù)模型的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種建立郵件數(shù)據(jù)模型的方法。
背景技術(shù):
基于RFC822標(biāo)準(zhǔn)或RFC2822改進(jìn)標(biāo)準(zhǔn)的電子郵件不能夠支持非ASCII字符、二進(jìn)制格式附 件等多種格式的郵件,也不支持多媒體郵件(如音視頻的應(yīng)用),在非英語(yǔ)國(guó)家應(yīng)用有限。 M頂E標(biāo)準(zhǔn)即RFC2045 RFC2049標(biāo)準(zhǔn),擴(kuò)展了電子郵件標(biāo)準(zhǔn),使其能夠滿(mǎn)足現(xiàn)代電子郵件的各 種需求,實(shí)現(xiàn)了非英語(yǔ)字符消息和二進(jìn)制文件、圖像、聲音等非文字消息在電子郵件中的傳 輸。M頂E標(biāo)準(zhǔn)自1996年發(fā)布后獲得極為廣泛的應(yīng)用?,F(xiàn)有的M頂E郵件數(shù)據(jù)結(jié)構(gòu)是一種半結(jié)構(gòu) 化的數(shù)據(jù)模型,它基于文本格式, 一封原始郵件就是一個(gè)文本文件。它以"行"為單位分隔 郵件的每個(gè)域,包括以空行、空格來(lái)間隔每個(gè)域,以特殊文本字符包含正文數(shù)據(jù)?,F(xiàn)有M頂E 郵件的編/解碼要消耗大量的CUP資源,而且郵件中如果包含很大的附件程序,則會(huì)造成閱讀 郵件和發(fā)送郵件時(shí)會(huì)導(dǎo)致資源消耗太多而死機(jī)。有鑒于此,目前國(guó)內(nèi)外大多數(shù)郵件服務(wù)器都 對(duì)郵件附件的大小做了限制,比如新浪的郵件附件限制為15兆、搜狐的郵件附件限制為10兆 。附件超出限制的大小則發(fā)送失敗。造成以上現(xiàn)象的根源在于目前M頂E郵件基于XML數(shù)據(jù)格 式,存在半結(jié)構(gòu)化的數(shù)據(jù)模型的特點(diǎn),它語(yǔ)法結(jié)構(gòu)比較松散、定義過(guò)于靈活,給郵件應(yīng)用如 郵件分析處理、垃圾郵件的篩選,甚至是郵件數(shù)據(jù)挖掘等帶來(lái)很多困難,比如使得郵件的解 析算法設(shè)計(jì)復(fù)雜,CPU需要進(jìn)行大量運(yùn)算才能把原始郵件轉(zhuǎn)換為易讀的郵件文本。也不利于 郵件導(dǎo)入數(shù)據(jù)庫(kù)保存,因?yàn)榘虢Y(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)存入數(shù)據(jù)庫(kù)同樣需要大量的解析運(yùn)算。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)中的郵件數(shù)據(jù)模型半結(jié)構(gòu)化帶來(lái)非常消耗 系統(tǒng)資源的不足,提出一種建立全結(jié)構(gòu)化郵件數(shù)據(jù)模型的方法。
本發(fā)明解決上述技術(shù)問(wèn)題采用的技術(shù)方案是 一種建立郵件數(shù)據(jù)模型的方法,包括以下 步驟
a. 將郵件的原始數(shù)據(jù)均放入大括號(hào)之間,表示為ID:{ },其中ID為郵件服務(wù)器對(duì)郵 件的唯一標(biāo)識(shí)碼;
b. 將郵件頭中的每個(gè)域的域名和域值轉(zhuǎn)換為JSON對(duì)象的域名對(duì)和域值對(duì);
c. 將郵件頭中自定義域的域名和域值統(tǒng)一放入X-extends嵌套處理;d.將郵件體中的所有內(nèi)容均放入Content域,郵件正文和附件都作為段表示,每個(gè)段對(duì) 應(yīng)一個(gè)Content域的嵌套對(duì)象。
本發(fā)明的有益效果是建立全結(jié)構(gòu)化的郵件數(shù)據(jù)模型,使得郵件傳輸占用系統(tǒng)資源小, 也便于郵件的分析處理及垃圾郵件的篩選。
具體實(shí)施例方式
針對(duì)現(xiàn)有技術(shù)中的郵件數(shù)據(jù)模型半結(jié)構(gòu)化帶來(lái)非常消耗系統(tǒng)資源的不足,提出一種建立 全結(jié)構(gòu)化郵件數(shù)據(jù)模型的方法,使得郵件傳輸占用系統(tǒng)資源小,也便于郵件的分析處理及垃 圾郵件的篩選,該郵件數(shù)據(jù)模型的建立基于JSON數(shù)據(jù)交換格式,該數(shù)據(jù)交換格式可以克服現(xiàn) 有技術(shù)采用XML數(shù)據(jù)格式帶來(lái)的語(yǔ)法結(jié)構(gòu)比較松散、定義過(guò)于靈活的不足。
在具體實(shí)施上,采用以下步驟實(shí)現(xiàn)a.將郵件的原始數(shù)據(jù)均放入大括號(hào)之間,表示為 ID: { },其中ID為郵件服務(wù)器對(duì)郵件的唯一標(biāo)識(shí)碼;
b. 將郵件頭中的每個(gè)域的域名和域值轉(zhuǎn)換為JSON對(duì)象的域名對(duì)和域值對(duì);例如郵件頭中 的Received域,表示方法如下
Received: [{from: "value3—11" ,by: "value3—12" ,with: "value3—13" , id:" value3—14" },]
Received域是郵件在發(fā)送過(guò)程中由每個(gè)中繼服務(wù)器自動(dòng)添加的內(nèi)容,用于幫助追蹤傳輸 中出現(xiàn)的錯(cuò)誤。From表示發(fā)送的服務(wù)器名;By表示接收的主機(jī)名;With指示郵件傳輸使用的 連接協(xié)議;Id用于標(biāo)識(shí)郵件。
c. 將郵件頭中自定義域的域名和域值統(tǒng)一放入X-extends嵌套處理;由于郵件服務(wù)器市 場(chǎng)有多家軟件公司,故存在多種郵件服務(wù)器軟件,這些軟件并不完全統(tǒng)一,普遍在郵件頭增 加了自己的自定義域。所以,本數(shù)據(jù)模型對(duì)郵件頭自定義域的域名和域值統(tǒng)一放入 X-extends嵌套為對(duì)象處理,使得其結(jié)構(gòu)更加緊湊。
d. 將郵件體中的所有內(nèi)容均放入Content域,郵件正文和附件都作為段表示,每個(gè)段對(duì) 應(yīng)一個(gè)Content域的嵌套對(duì)象;郵件體包括郵件正文和郵件附件,附件可為多媒體文件,且 可以有多個(gè)。本數(shù)據(jù)模型把郵件體所有內(nèi)容均放入Content域,郵件正文和附件都作為段表 示,每個(gè)段對(duì)應(yīng)一個(gè)Content域的嵌套對(duì)象。表示方法如下
Content:[
Boundary: "value12—11", Content-Type: "valuel2—12",charset: "valuel2—13", Content-Transfer-Encoding: "valuel2—14 Content-Disposition: "valuel2—15,,, Content-ID: "valuel2—16", Content-Location: "valuel2—17,,, Content-Base: "valuel2—18", Content: "value 12 19,,
其中,Boundary屬性和值定義了郵件的邊界;Content-Type屬性和值定義了郵件的類(lèi)型 ;charset屬性和值定義了郵件的字符集;Content-Transfer-Encoding屬性和值指定郵件消 息體中的內(nèi)容所采用的編碼方式;Content-Disposition屬性和值指定郵件閱讀程序處理數(shù) 據(jù)內(nèi)容的方式;Content-ID屬性和值用于為郵件正文的內(nèi)嵌資源指定一個(gè)唯一標(biāo)識(shí)號(hào),在正 文中可以使用這個(gè)唯一標(biāo)識(shí)號(hào)來(lái)引用該內(nèi)嵌資源;Content-Location屬性和值用于為內(nèi)嵌資 源設(shè)置一個(gè)URI地址,這個(gè)URI地址可以是絕對(duì)或相對(duì)的;Content-Base屬性和值用于為內(nèi)嵌 資源設(shè)置一個(gè)基準(zhǔn)路徑,這樣Content-Location頭字段中設(shè)置的URI才可以采用相對(duì)地址; Content屬性和值定義了郵件的正文。
采用JSON數(shù)據(jù)交換格式來(lái)定義并建立一種新型的郵件數(shù)據(jù)模型,不僅可使郵件數(shù)據(jù)表示 結(jié)構(gòu)化,簡(jiǎn)化郵件內(nèi)容數(shù)據(jù)的采集方式,促進(jìn)垃圾郵件屏蔽、數(shù)據(jù)挖掘等應(yīng)用,還使得郵件 數(shù)據(jù)本身具有JSON的網(wǎng)絡(luò)傳輸資源消耗小、數(shù)據(jù)精煉等優(yōu)點(diǎn)。雖然沒(méi)有徹底解決郵件系統(tǒng)的 附件限制,但在一定程度上可以減輕這種附件大小的限制,據(jù)測(cè)試,采用此數(shù)據(jù)模型的郵件 系統(tǒng),附件可輕松突破200M。
權(quán)利要求
權(quán)利要求1一種建立郵件數(shù)據(jù)模型的方法,其特征在于包括以下步驟a. 將郵件的原始數(shù)據(jù)均放入大括號(hào)之間,表示為ID{…},其中ID為郵件服務(wù)器對(duì)郵件的唯一標(biāo)識(shí)碼;b. 將郵件頭中的每個(gè)域的域名和域值轉(zhuǎn)換為JSON對(duì)象的域名對(duì)和域值對(duì);c. 將郵件頭中自定義域的域名和域值統(tǒng)一放入X-extends嵌套處理;d. 將郵件體中的所有內(nèi)容均放入Content域,郵件正文和附件都作為段表示,每個(gè)段對(duì)應(yīng)一個(gè)Content域的嵌套對(duì)象。
全文摘要
本發(fā)明涉及一種建立郵件數(shù)據(jù)模型的方法。本發(fā)明針對(duì)現(xiàn)有技術(shù)中的郵件數(shù)據(jù)模型半結(jié)構(gòu)化帶來(lái)消耗系統(tǒng)資源大的不足,提出一種建立全結(jié)構(gòu)化郵件數(shù)據(jù)模型的方法。其技術(shù)方案的要點(diǎn)是a.將郵件的原始數(shù)據(jù)均放入大括號(hào)之間,表示為ID{…},其中ID為郵件服務(wù)器對(duì)郵件的唯一標(biāo)識(shí)碼;b.將郵件頭中的每個(gè)域的域名和域值轉(zhuǎn)換為JSON對(duì)象的域名對(duì)和域值對(duì);c.將郵件頭中自定義域的域名和域值統(tǒng)一放入X-extends嵌套處理;d.將郵件體中的所有內(nèi)容均放入Content域,郵件正文和附件都作為段表示,每個(gè)段對(duì)應(yīng)一個(gè)Content域的嵌套對(duì)象。本發(fā)明的有益效果是建立全結(jié)構(gòu)化的郵件數(shù)據(jù)模型,使得郵件傳輸占用系統(tǒng)資源小。
文檔編號(hào)H04L12/58GK101425984SQ200810306199
公開(kāi)日2009年5月6日 申請(qǐng)日期2008年12月12日 優(yōu)先權(quán)日2008年12月12日
發(fā)明者強(qiáng) 李 申請(qǐng)人:四川長(zhǎng)虹電器股份有限公司