基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)的制作方法

文檔序號：2827307閱讀：307來源：國知局

基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明是有關(guān)于一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)，該方法包括：將大詞表拆分為多個小詞表；將每個小詞表對應(yīng)一個神經(jīng)網(wǎng)絡(luò)語言模型，每個神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練；將各神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。該系統(tǒng)包括：輸入模塊、第一次訓練模塊、第二次訓練模塊和輸出模塊。本發(fā)明通過多個神經(jīng)網(wǎng)絡(luò)訓練學習不同詞表，充分利用神經(jīng)網(wǎng)絡(luò)的學習能力，大大降低對大詞表學習訓練的時間，同時將大詞表的輸出進行歸一化，實現(xiàn)多個神經(jīng)網(wǎng)絡(luò)的歸一和共享，使得NNLM盡可能學習更多的信息，從而提高大規(guī)模語音識別和機器翻譯等相關(guān)應(yīng)用任務(wù)中的準確率。
【專利說明】基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語言模型，特別是涉及一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)。
【背景技術(shù)】
[0002]語言模型在自然語言處理中有著非常重要的作用，特別是在大規(guī)模語音識別和機器翻譯中。當前主流的語言模型為基于概率的統(tǒng)計語言模型，特別是基于n-gram的統(tǒng)計模型。隨著神經(jīng)網(wǎng)絡(luò)的興起，越來越多的人利用神經(jīng)網(wǎng)絡(luò)生成統(tǒng)計語言模型。
[0003]統(tǒng)計語言模型被廣泛應(yīng)用于各種自然語言處理問題，如語言識別、分詞、機器翻譯、詞性標注等。簡單的說，統(tǒng)計語言模型就是用來計算一個句子的概率的模型，即
[0004]P (W1, W2,..., Wk)
[0005]已知一個句子(詞語序列)S=W1, W2,..., Wk,他們的概率可以表示為:
[0006]P (s) =p (W1, W2,…，wk) =p (W1)P (W21W1)...P (wk IW1, W2,..., W^1)
[0007]舉個簡單的例子，輸入拼音串為nixianzaiganshenme,對應(yīng)的輸出可以有多種形式，如“你現(xiàn)在干什么”、“你西安再趕什么”，等等。那么到底哪個才是正確的轉(zhuǎn)換結(jié)果呢？利用語言模型，我們知道前者的概率大于后者，因此轉(zhuǎn)換成前者在多數(shù)情況下比較合理。
[0008]目前使用比較多的統(tǒng)計語言模型是n-gram語言模型，就是將上式中條件概率部分 pbklwpw^ …，Wlrf)簡化為 P (Wk IW1, W2,..., Wn^1) O 實際應(yīng)用中 η—般取為 n=3 或 n=4,即三元和四元的n-gram語言模型。
[0009]基于神經(jīng)網(wǎng)絡(luò)的語言模型最早由Bengio等人在2001年發(fā)表在NIPS上的文章《ANeural Probabilistic Language Model))中提出。請參閱圖1 所不，Wj_n+1, Wj_n+2,…，Wj^1就是當前詞W」的前η-1個詞?，F(xiàn)在需要根據(jù)這已知的η-1個詞預測詞％的概率，即計算:
[0010]P (Wj=i I hj) VlG[l.N]
[0011]首先，從輸入層到映射層(projectionlayer)由一個|V| Xm維的映射矩陣C(W)完成，其中|V|表示詞表的大小(語料中的總詞數(shù))，m表示映射空間的維度。
[0012]網(wǎng)絡(luò)的第一層(映射層)是將C(w」_n+1)，C(w」_n+2)，…，C(wj-l)這η-1個向量首尾相接拼起來，形成一個維的向量，記為Q。網(wǎng)絡(luò)的第二層(隱藏層)由映射層經(jīng)過線性變換d+Hx附加一個激活函數(shù)tanh ()得到,其中d是一個偏置量，tanh ()定義如下:。
[0013]dj=tanh (Σ PjlCfbj)。
[0014]網(wǎng)絡(luò)的第三層(輸出層)一共有Ivl個節(jié)點，每個節(jié)點71表示下一個詞為i的概率。該層由隱藏層輸出經(jīng)過線性變換后附加SOftmax激活函數(shù)進行歸一化得到，計算公式為:
[0015]Oi= Σ j υ jjcl`j+kj
[0016]Pi=exp (Oi) / (Σ r (exp (or)))
[0017]相比于當前主流的n-gram語言模型，基于神經(jīng)網(wǎng)絡(luò)的語言模型(NNLM)對模型參數(shù)的共享更直接有效(共享映射矩陣)，因而對低頻詞具有天然的光滑性，因此在建模能力上具有顯著優(yōu)勢。另一方面，NNLM也具有明顯的弱點，，包括:[0018]I)訓練效率低，耗時長，特別是當詞表增大到超過IOw時，訓練時間難以接受；
[0019]2)解碼時間較長，不能滿足實際要求；
[0020]3)單個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學習大詞表能力差，一旦需要學習的信息增多，單個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就無法滿足。
[0021]為了解決上述問題，可以考慮利用分布式神經(jīng)網(wǎng)絡(luò)進行大詞表語言模型學習。但是，基于現(xiàn)有技術(shù)，在進行多個神經(jīng)網(wǎng)絡(luò)學習時，各個神經(jīng)網(wǎng)絡(luò)需要獨立學習不同詞匯，極易導致最后產(chǎn)生的語言模型的概率尺度不統(tǒng)一，即未歸一化。
[0022]因此，如何能同時解決大詞表神經(jīng)網(wǎng)絡(luò)語言模型學習和多個神經(jīng)網(wǎng)絡(luò)之間的歸一化問題，在大規(guī)模語音識別和機器翻譯中顯得尤為重要。

【發(fā)明內(nèi)容】

[0023]本發(fā)明要解決的技術(shù)問題是提供一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)，使其能夠同時解決大詞表神經(jīng)網(wǎng)絡(luò)語言模型學習和多個神經(jīng)網(wǎng)絡(luò)之間歸一化的問題，從而克服現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語言模型學習方法的不足。
[0024]為解決上述技術(shù)問題，本發(fā)明提出一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法，包括以下步驟:將大詞表拆分為多個小詞表；將每個小詞表對應(yīng)一個小神經(jīng)網(wǎng)絡(luò)語言模型，每個小神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練；將各小神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
[0025]作為本發(fā)明的一種改進，第二次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
[0026]
【權(quán)利要求】
1.一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法，其特征在于包括以下步驟: 將大詞表拆分為多個小詞表；將每個小詞表對應(yīng)一個小神經(jīng)網(wǎng)絡(luò)語言模型，每個小神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練；將各小神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練；得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
2.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法，其特征在于所述的第二次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
3.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法，其特征在于所述的第一次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
4.一種應(yīng)用權(quán)利要求1-3中任一項所述方法的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練系統(tǒng)，其特征在于包括: 輸入模塊，用于將大詞表拆分為多個小詞表；第一次訓練模塊，包括多個獨立的小神經(jīng)網(wǎng)絡(luò)語言模型模塊，每個小神經(jīng)網(wǎng)絡(luò)語言模型模塊對應(yīng)輸入模塊的一個小詞表進行獨立訓練；第二次訓練模塊，用于將第一次訓練模塊中各小神經(jīng)網(wǎng)絡(luò)語言模型模塊的輸出向量合并，并進行第二次訓練；輸出模塊，用于輸出第二次訓練模塊得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
5.根據(jù)權(quán)利要求4所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練系統(tǒng)，其特征在于所述的第一次訓練模塊中的各小神經(jīng)網(wǎng)絡(luò)語言模型模塊包括接收輸入量的映射層、進行概率計算的隱藏層和輸出層。
【文檔編號】G10L15/06GK103810999SQ201410067916
【公開日】2014年5月21日申請日期:2014年2月27日優(yōu)先權(quán)日:2014年2月27日
【發(fā)明者】劉榮, 王東, 鄭方申請人:清華大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉榮;王東;鄭方
技術(shù)所有人：清華大學
我是此專利的發(fā)明人

上一篇：一種信息處理方法、裝置及電子設(shè)備的制作方法
上一篇：用于檢測和弦的設(shè)備和方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

神經(jīng)網(wǎng)絡(luò)語言模型相關(guān)技術(shù)

循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)的制作方法