午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)的制作方法

文檔序號:2827307閱讀:307來源:國知局
基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明是有關(guān)于一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng),該方法包括:將大詞表拆分為多個小詞表;將每個小詞表對應(yīng)一個神經(jīng)網(wǎng)絡(luò)語言模型,每個神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練;將各神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練;得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。該系統(tǒng)包括:輸入模塊、第一次訓練模塊、第二次訓練模塊和輸出模塊。本發(fā)明通過多個神經(jīng)網(wǎng)絡(luò)訓練學習不同詞表,充分利用神經(jīng)網(wǎng)絡(luò)的學習能力,大大降低對大詞表學習訓練的時間,同時將大詞表的輸出進行歸一化,實現(xiàn)多個神經(jīng)網(wǎng)絡(luò)的歸一和共享,使得NNLM盡可能學習更多的信息,從而提高大規(guī)模語音識別和機器翻譯等相關(guān)應(yīng)用任務(wù)中的準確率。
【專利說明】基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語言模型,特別是涉及一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng)。
【背景技術(shù)】
[0002]語言模型在自然語言處理中有著非常重要的作用,特別是在大規(guī)模語音識別和機器翻譯中。當前主流的語言模型為基于概率的統(tǒng)計語言模型,特別是基于n-gram的統(tǒng)計模型。隨著神經(jīng)網(wǎng)絡(luò)的興起,越來越多的人利用神經(jīng)網(wǎng)絡(luò)生成統(tǒng)計語言模型。
[0003]統(tǒng)計語言模型被廣泛應(yīng)用于各種自然語言處理問題,如語言識別、分詞、機器翻譯、詞性標注等。簡單的說,統(tǒng)計語言模型就是用來計算一個句子的概率的模型,即
[0004]P (W1, W2,..., Wk)
[0005]已知一個句子(詞語序列)S=W1, W2,..., Wk,他們的概率可以表示為:
[0006]P (s) =p (W1, W2,…,wk) =p (W1)P (W21W1)...P (wk IW1, W2,..., W^1)
[0007]舉個簡單的例子,輸入拼音串為nixianzaiganshenme,對應(yīng)的輸出可以有多種形式,如“你現(xiàn)在干什么”、“你西安再趕什么”,等等。那么到底哪個才是正確的轉(zhuǎn)換結(jié)果呢?利用語言模型,我們知道前者的概率大于后者,因此轉(zhuǎn)換成前者在多數(shù)情況下比較合理。
[0008]目前使用比較多的統(tǒng)計語言模型是n-gram語言模型,就是將上式中條件概率部分 pbklwpw^ …,Wlrf)簡化為 P (Wk IW1, W2,..., Wn^1) O 實際應(yīng)用中 η—般取為 n=3 或 n=4,即三元和四元的n-gram語言模型。
[0009]基于神經(jīng)網(wǎng)絡(luò)的語言模型最早由Bengio等人在2001年發(fā)表在NIPS上的文章《ANeural Probabilistic Language Model))中提出。請參閱圖1 所不,Wj_n+1, Wj_n+2,…,Wj^1就是當前詞W」的前η-1個詞?,F(xiàn)在需要根據(jù)這已知的η-1個詞預測詞%的概率,即計算:
[0010]P (Wj=i I hj) VlG[l.N]
[0011]首先,從輸入層到映射層(projectionlayer)由一個|V| Xm維的映射矩陣C(W)完成,其中|V|表示詞表的大小(語料中的總詞數(shù)),m表示映射空間的維度。
[0012]網(wǎng)絡(luò)的第一層(映射層)是將C(w」_n+1),C(w」_n+2),…,C(wj-l)這η-1個向量首尾相接拼起來,形成一個維的向量,記為Q。網(wǎng)絡(luò)的第二層(隱藏層)由映射層經(jīng)過線性變換d+Hx附加一個激活函數(shù)tanh ()得到,其中d是一個偏置量,tanh ()定義如下:。
[0013]dj=tanh (Σ PjlCfbj)。
[0014]網(wǎng)絡(luò)的第三層(輸出層)一共有Ivl個節(jié)點,每個節(jié)點71表示下一個詞為i的概率。該層由隱藏層輸出經(jīng)過線性變換后附加SOftmax激活函數(shù)進行歸一化得到,計算公式為:
[0015]Oi= Σ j υ jjcl`j+kj
[0016]Pi=exp (Oi) / (Σ r (exp (or)))
[0017]相比于當前主流的n-gram語言模型,基于神經(jīng)網(wǎng)絡(luò)的語言模型(NNLM)對模型參數(shù)的共享更直接有效(共享映射矩陣),因而對低頻詞具有天然的光滑性,因此在建模能力上具有顯著優(yōu)勢。另一方面,NNLM也具有明顯的弱點,,包括:[0018]I)訓練效率低,耗時長,特別是當詞表增大到超過IOw時,訓練時間難以接受;
[0019]2)解碼時間較長,不能滿足實際要求;
[0020]3)單個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學習大詞表能力差,一旦需要學習的信息增多,單個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就無法滿足。
[0021]為了解決上述問題,可以考慮利用分布式神經(jīng)網(wǎng)絡(luò)進行大詞表語言模型學習。但是,基于現(xiàn)有技術(shù),在進行多個神經(jīng)網(wǎng)絡(luò)學習時,各個神經(jīng)網(wǎng)絡(luò)需要獨立學習不同詞匯,極易導致最后產(chǎn)生的語言模型的概率尺度不統(tǒng)一,即未歸一化。
[0022]因此,如何能同時解決大詞表神經(jīng)網(wǎng)絡(luò)語言模型學習和多個神經(jīng)網(wǎng)絡(luò)之間的歸一化問題,在大規(guī)模語音識別和機器翻譯中顯得尤為重要。

【發(fā)明內(nèi)容】

[0023]本發(fā)明要解決的技術(shù)問題是提供一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法及其系統(tǒng),使其能夠同時解決大詞表神經(jīng)網(wǎng)絡(luò)語言模型學習和多個神經(jīng)網(wǎng)絡(luò)之間歸一化的問題,從而克服現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語言模型學習方法的不足。
[0024]為解決上述技術(shù)問題,本發(fā)明提出一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法,包括以下步驟:將大詞表拆分為多個小詞表;將每個小詞表對應(yīng)一個小神經(jīng)網(wǎng)絡(luò)語言模型,每個小神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練;將各小神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練;得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
[0025]作為本發(fā)明的一種改進,第二次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
[0026]
【權(quán)利要求】
1.一種基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法,其特征在于包括以下步驟: 將大詞表拆分為多個小詞表; 將每個小詞表對應(yīng)一個小神經(jīng)網(wǎng)絡(luò)語言模型,每個小神經(jīng)網(wǎng)絡(luò)語言模型的輸入維數(shù)相同且獨立進行第一次訓練; 將各小神經(jīng)網(wǎng)絡(luò)語言模型的輸出向量合并并進行第二次訓練; 得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
2.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法,其特征在于所述的第二次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
3.根據(jù)權(quán)利要求1所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練方法,其特征在于所述的第一次訓練神經(jīng)網(wǎng)絡(luò)的輸出概率計算公式為:
4.一種應(yīng)用權(quán)利要求1-3中任一項所述方法的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練系統(tǒng),其特征在于包括: 輸入模塊,用于將大詞表拆分為多個小詞表; 第一次訓練模塊,包括多個獨立的小神經(jīng)網(wǎng)絡(luò)語言模型模塊,每個小神經(jīng)網(wǎng)絡(luò)語言模型模塊對應(yīng)輸入模塊的一個小詞表進行獨立訓練; 第二次訓練模塊,用于將第一次訓練模塊中各小神經(jīng)網(wǎng)絡(luò)語言模型模塊的輸出向量合并,并進行第二次訓練; 輸出模塊,用于輸出第二次訓練模塊得到歸一化的神經(jīng)網(wǎng)絡(luò)語言模型。
5.根據(jù)權(quán)利要求4所述的基于分布式神經(jīng)網(wǎng)絡(luò)的語言模型訓練系統(tǒng),其特征在于所述的第一次訓練模塊中的各小神經(jīng)網(wǎng)絡(luò)語言模型模塊包括接收輸入量的映射層、進行概率計算的隱藏層和輸出層。
【文檔編號】G10L15/06GK103810999SQ201410067916
【公開日】2014年5月21日 申請日期:2014年2月27日 優(yōu)先權(quán)日:2014年2月27日
【發(fā)明者】劉榮, 王東, 鄭方 申請人:清華大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1