一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法

文檔序號：10595515閱讀：478來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法
【專利摘要】本發(fā)明是一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，涉及基于IP網(wǎng)絡(luò)的語音交互技術(shù)領(lǐng)域。本發(fā)明利用噪聲訓(xùn)練樣本和語音訓(xùn)練樣本構(gòu)造支持向量機(jī)(SVM)分類器，待檢測信號是分塊后的遠(yuǎn)端和近端信號，使用構(gòu)造好的基于高斯混合模型的SVM分類器對本分塊遠(yuǎn)端信號進(jìn)行VAD判決，如果判斷結(jié)果為無語音，停止濾波器更新和濾波，直接輸出近端語音信號，如果判斷遠(yuǎn)端有語音，進(jìn)行雙端通話判決；當(dāng)處于雙端通話時，停止濾波器系數(shù)更新，對近端信號進(jìn)行濾波；否則，根據(jù)遠(yuǎn)端信號進(jìn)行濾波器系數(shù)更新和濾波。本發(fā)明提高了語音活動性檢測的準(zhǔn)確性，避免將雙端靜音狀態(tài)誤判為雙端通話狀態(tài)，防止了在沒有參考信號的情況下濾波器的錯誤更新和濾波。
【專利說明】
-種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及基于IP網(wǎng)絡(luò)的語音交互技術(shù)領(lǐng)域，具體是指一種適用于回聲消除系統(tǒng) 的語音狀態(tài)檢測方法。
【背景技術(shù)】
[0002] 回聲消除技術(shù)廣泛應(yīng)用于電話會議系統(tǒng)、車載藍(lán)牙系統(tǒng)、IP電話等基于IP網(wǎng)絡(luò)的語音交互系統(tǒng)中，用W消除揚(yáng)聲器播放的聲音經(jīng)過多種路徑傳播后被麥克風(fēng)拾取，并傳回到系統(tǒng)遠(yuǎn)端形成的聲學(xué)回聲。回聲消除的核屯、思想是通過一個自適應(yīng)濾波器模擬回聲路徑，并將估計回聲信號從麥克風(fēng)拾取的信號中減去。
[0003] 語音狀態(tài)檢測在回聲消除中起著至關(guān)重要的作用。在聲音信號進(jìn)入濾波器之前需要首先對當(dāng)前語音狀態(tài)進(jìn)行判斷，根據(jù)系統(tǒng)所處的語音狀態(tài)決定濾波器的工作狀態(tài)。是否能準(zhǔn)確迅速地判斷系統(tǒng)語音狀態(tài)，對回聲消除的效果有很大的影響。
[0004] 現(xiàn)有的回聲消除系統(tǒng)通常直接使用DTD(Double Ta化Detection,雙端通話檢測）算法判斷系統(tǒng)是否處于雙端通話狀態(tài)，并在雙端通話狀態(tài)下停止濾波器系數(shù)更新，防止運(yùn) 種情況下濾波器由于受到近端語音的干擾而發(fā)散。常用的DTD算法一一Geigel算法通過比較近端信號和遠(yuǎn)端信號的幅度值判斷是否存在近端語音，在近端信號與遠(yuǎn)端信號幅度的比值大于特定值T時認(rèn)為系統(tǒng)處于雙端通話狀態(tài)。即當(dāng)：
[0005]
[0006] 時，認(rèn)為存在近端語音，系統(tǒng)處于雙端通話狀態(tài)。其中Iy化）I是近端語音幅度值， max{ Ix化-1) I，...，Ix化-N) I }是遠(yuǎn)端語音信號前N個采樣點(diǎn)的最大幅度值。n限巧良據(jù)回聲路徑衰減來確定，通?？蒞取0.5; N通常與濾波器長度相等。
[0007] 但該方法存在如下缺點(diǎn)：
[000引 UGeigel算法假設(shè)了近端語音遠(yuǎn)大于遠(yuǎn)端的回聲信號，并不完全符合回聲消除的實(shí)際情況，因此在某些情況下不是很準(zhǔn)確。
[0009] 2、不進(jìn)行遠(yuǎn)端VAD(Voice Activity Detection,語音活動性檢測）就直接進(jìn)行DTD 可能會導(dǎo)致雙端靜音狀態(tài)被誤判為雙端通話狀態(tài)。
[0010] 3、僅在雙端通話狀態(tài)下停止濾波器系數(shù)更新，在遠(yuǎn)端語音不存在的狀態(tài)下持續(xù)進(jìn) 行濾波和系數(shù)更新可能導(dǎo)致濾波器發(fā)散，并從近端信號中錯誤地減去并不存在的遠(yuǎn)端語音。

【發(fā)明內(nèi)容】

[0011] 為了克服上述的S個問題，本發(fā)明提出一種結(jié)合VAD和DTD的語音狀態(tài)檢測方法，并根據(jù)檢測結(jié)果設(shè)計新的濾波和更新策略W提高檢測準(zhǔn)確率，避免語音狀態(tài)的誤判，防止濾波器的錯誤更新和濾波。
[0012] 本發(fā)明提供的一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，實(shí)現(xiàn)步驟如下：
[OOU]第一步:利用噪聲訓(xùn)練樣本和語音訓(xùn)練樣本構(gòu)造支持向量機(jī)SVM分類器。
[0014] 分別對噪聲訓(xùn)練樣本和語音訓(xùn)練樣本進(jìn)行特征值提取和高斯混合模型GMM訓(xùn)練，構(gòu)造對應(yīng)的高斯超向量。利用高斯超向量構(gòu)造 SVM分類器核函數(shù)，W及語音信號和噪聲信號對應(yīng)的SVM模型，使用構(gòu)造好的核函數(shù)和SVM模型構(gòu)造得到SVM分類器。
[0015] 第二步:待檢測信號是分塊后的遠(yuǎn)端和近端信號。使用構(gòu)造好的基于高斯混合模型的SVM分類器對本分塊遠(yuǎn)端信號進(jìn)行VAD判決。
[0016] 對本分塊遠(yuǎn)端信號進(jìn)行特征值提取和GMM訓(xùn)練，構(gòu)造高斯超向量。將本分塊遠(yuǎn)端信號對應(yīng)的高斯超向量輸入到構(gòu)造好的SVM分類器中進(jìn)行判決。如果分類為噪聲，判斷結(jié)果為無語音，則停止濾波器更新和濾波，直接輸出近端語音信號。否則說明遠(yuǎn)端有語音，進(jìn)行下一步的雙端通話判決。
[0017] 第S步:判斷系統(tǒng)是否屬于雙端通話狀態(tài)。
[0018] 計算遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)CxEGG，比較歸一化互相關(guān)Cxegg和設(shè)置的口限Txecc，當(dāng)Cxecc<Txecc時，近端有語音，系統(tǒng)處于雙端通話狀態(tài)，停止濾波器系數(shù)更新，對近端信號進(jìn)行濾波。當(dāng)時，近端無語音，根據(jù)遠(yuǎn)端信號進(jìn)行濾波器系數(shù)更新和濾波。
[0019] 本發(fā)明的優(yōu)點(diǎn)與積極效果在于：
[0020] (1)使用基于高斯混合模型的支持向量機(jī)算法對遠(yuǎn)端信號進(jìn)行語音活動性檢測，提高了語音活動性檢測的準(zhǔn)確性，克服了常用的基于能量的語音活動性檢測方法存在的在低信噪比條件下檢測不準(zhǔn)確的問題。
[0021] (2)在雙端通話檢測之前首先進(jìn)行遠(yuǎn)端語音活動性檢測，在遠(yuǎn)端有語音時再進(jìn)行雙端通話檢測，能夠避免將雙端靜音狀態(tài)誤判為雙端通話狀態(tài)。采用基于互相關(guān)的雙端通話檢測算法，提高了雙端通話檢測的準(zhǔn)確性。
[0022] (3)根據(jù)系統(tǒng)所處的不同語音狀態(tài)采取不同的濾波和更新策略。與傳統(tǒng)回聲消除系統(tǒng)僅在雙端通話時停止濾波器系數(shù)更新相比，在遠(yuǎn)端無語音的狀態(tài)下也停止濾波器系數(shù) 更新和濾波，可W進(jìn)一步防止在沒有參考信號的情況下濾波器的錯誤更新和濾波。
【附圖說明】
[0023] 圖1是本發(fā)明的適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法的整體流程示意圖；
[0024] 圖2是本發(fā)明實(shí)施例仿真所用的兩段PCM流示意圖；
[0025] 圖3是本發(fā)明實(shí)施例僅使用基于能量的DlD檢測進(jìn)行回聲消除的效果示意圖；
[0026] 圖4是本發(fā)明實(shí)施例采用本發(fā)明方法進(jìn)行回聲消除的效果示意圖；
[0027] 圖5是本發(fā)明實(shí)施例使用改進(jìn)前的回聲消除庫的Sipdroid回聲消除效果示意圖； [00%]圖6是本發(fā)明實(shí)施例使用改進(jìn)后的回聲消除庫的Sipdroid回聲消除效果示意圖；
【具體實(shí)施方式】
[0029] 下面將結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0030] 本發(fā)明方法在DTD之前首先對遠(yuǎn)端信號進(jìn)行VAD，在VAD檢測出遠(yuǎn)端信號不存在時直接停止濾波器系數(shù)更新和濾波，W防止濾波器發(fā)散及錯誤地濾波。在VAD檢測出存在遠(yuǎn)端語音時再進(jìn)行DTD，并在雙端通話時停止濾波器系數(shù)更新。其中使用的VAD算法是基于GMM (Gaussian Mix1:ure Model,高斯混合模型）的SVM(Suppo;rt Vector Machine,支持向量機(jī)）算法，該算法利用GMM構(gòu)造特征超向量，將GMM超向量用于SVM的特征值輸入及核函數(shù)構(gòu)造，準(zhǔn)確率高于常用的基于能量或相關(guān)性的VAD算法。使用的DlD算法是基于遠(yuǎn)端信號與誤差信號互相關(guān)的DTD，準(zhǔn)確率也高于常用的基于能量的Geigel算法。通過將遠(yuǎn)端VAD和DlD結(jié)合起來，可W提高語音狀態(tài)檢測的準(zhǔn)確性。通過在不同語音狀態(tài)下采取不同的濾波策略，可W防止濾波器的發(fā)散及錯誤的濾波，大大改善回聲消除的效果。
[0031] 結(jié)合圖1說明本發(fā)明的適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法的各步驟。
[0032] 步驟一，利用噪聲訓(xùn)練樣本和語音訓(xùn)練樣本構(gòu)造 SVM分類器，包括步驟SlOl~ S103。
[0033] 步驟SlOl:對噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本進(jìn)行特征值提取。運(yùn)里采用的特征值是Mel倒譜系數(shù)(MFCC)dMFCC具體提取過程:對信號進(jìn)行預(yù)加重、分塊及加窗處理，將加窗后的分塊經(jīng)過快速傅里葉變換(FFT)求出每一分塊的頻譜參數(shù)。將每一分塊的頻譜參數(shù)通過一組由K個S角形帶通濾波器所組成的Mel刻度濾波器，K個Mel帶通濾波器編號從 0到K-1，將每個頻帶的輸出取對數(shù)，求出每一個輸出的對數(shù)能量，對每個分塊語音信號獲得對應(yīng)的K個對數(shù)頻譜。K為正整數(shù)，一般取值為20~30。最后將得到的K個對數(shù)頻譜進(jìn)行余弦變換求出Mel倒譜系數(shù)。將對數(shù)頻譜經(jīng)過離散余弦變換變換到倒譜頻域得到Mel倒譜系數(shù)的公式化了-
[0034] (1)
[0035] 其中，Si(k)為第i個分塊信號通過編號k的帶通濾波器后對應(yīng)得到的對數(shù)頻譜，K 為Mel帶通濾波器的個數(shù)，HU(I)為第i個分塊語音信號的MFCC的第1階參數(shù)，L為提取的MFCC 的總階數(shù)，公式(1)中i表示對應(yīng)第i個分塊，i為正整數(shù)。
[0036] 步驟S102:生成噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本對應(yīng)的高斯超向量。
[0037] 分別利用噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本的MFCC參數(shù)建立噪聲信號和語音信號對應(yīng)的高斯混合模型。GMM本質(zhì)上是一種多維概率密度函數(shù)，N階高斯混合模型g(x) 是由N個單高斯分布的線性組合來描述帖特征在特征空間的分布，對某一分塊，g(x)表示如下：
[00；3 引口）
[0039] 其中，X是訓(xùn)練樣本本分塊的MFCC參數(shù)構(gòu)成的L維特征向量，N是高斯混合模型的階數(shù)，Pi(X)為高斯混合模型的第i個高斯分量，Wi為高斯混合模型分量Pi(X)的加權(quán)因子。
[0040] Pi(X)表示如下：
[0041]
W
[0042] 其中，Si是第i個高斯分量的協(xié)方差矩陣，m是第i個高斯分量的均值向量，因此， GMM模型的參數(shù)集A可表示如下：
[0043] A=(wi，化，5：i)，i = l，2，...，N (4)
[0044] 相應(yīng)的高斯混合模型g(x)可W表示為：
[0045]
O)
[0046] 其中，N(.)表示高斯概率密度函數(shù)。
[0047] 建立GMM模型的過程實(shí)際上就是通過訓(xùn)練估計GMM模型的參數(shù)的過程?？蒞采用最大期望算法進(jìn)行模型參數(shù)更新。該算法有兩個主要步驟:期望E步和最大化M步。E步利用當(dāng)前的參數(shù)集計算完整數(shù)據(jù)的似然度函數(shù)的期望值，M步通過最大化期望函數(shù)獲取新的參數(shù)。E步和M步一直迭代直至收斂。最后分別可W得到語音和噪聲的GMM模型，設(shè)為g(s)和g (n)，s表示語音信號，n表示噪聲信號。
[0048] 利用建立好的高斯混合模型構(gòu)造高斯超向量。高斯超向量是高斯混合模型的參數(shù) 構(gòu)造而成的，可W將語音和噪聲的GMM高斯超向量ms和mn分別表示如下：
[0049] (6)
[00 加] (7)
[0051 ] K，知，...，/4為g(S)中各高斯分量的均值向量，片'，知，...，/4為g(n)中各高斯分量的均值向量。
[0052]步驟S103:利用構(gòu)造好的高斯超向量構(gòu)造 SVM分類器。分別利用噪聲信號和語音信號對應(yīng)的高斯超向量mn和ms建立噪聲信號和語音信號對應(yīng)的SVM模型。利用噪聲信號和語音信號對應(yīng)的高斯超向量Hin和ms構(gòu)造 K-L核函數(shù)。該核函數(shù)使用兩個GMM概率分布之間的K-L散度構(gòu)造而成。
[0053 ]由語音和噪聲的GMM超向量mn和ms構(gòu)造的核函數(shù)K (n，S)具體表達(dá)式如下：
[0054]
巧)
[0055] 確定核函數(shù)、語音信號的SVM和噪聲信號的SVM后可W得到SVM分類器。
[0056] 步驟二，使用構(gòu)造好的基于GMM的SVM分類器對本分塊遠(yuǎn)端信號進(jìn)行VAD判決。輸入 SVM分類器的待檢測信號是分塊后的遠(yuǎn)端和近端信號。需要首先進(jìn)行傅里葉變換轉(zhuǎn)換到頻域，然后根據(jù)信號頻譜計算信號分塊的特征值，即MFCC、歸一化互相關(guān)等。具體可分為步驟 S201~S203。
[0057] 步驟S201:本分塊遠(yuǎn)端信號MFCC參數(shù)提取。MFCC參數(shù)的具體提取過程同步驟101，通過公式(1)最終得到本分塊遠(yuǎn)端信號對應(yīng)的MFCC參數(shù)。
[005引步驟S202:本分塊遠(yuǎn)端信號對應(yīng)的高斯超向量生成。利用本分塊遠(yuǎn)端信號MFCC參數(shù)建立高斯混合模型，并利用建立好的高斯混合模型構(gòu)造本分塊遠(yuǎn)端信號對應(yīng)的高斯超向量。高斯超向量生成方法同步驟S102,如公式(6)和(7)所示。
[0059] 步驟S203:將本分塊遠(yuǎn)端信號對應(yīng)的高斯超向量輸入到構(gòu)造好的SVM分類器中，使用基于GMM的SVM算法進(jìn)行語音/噪聲分類。得出遠(yuǎn)端語音的VAD判決結(jié)果。如果分類為噪聲，判斷結(jié)果為無語音，則停止濾波器更新和濾波，直接輸出近端語音信號。如果分類為語音，說明遠(yuǎn)端有語音，進(jìn)行下一步的雙端通話判決。
[0060] 步驟S，判斷系統(tǒng)是否屬于雙端通話狀態(tài)。
[0061 ] 步驟S301:計算誤差信號。
[0062]自適應(yīng)濾波器系數(shù)模擬了回聲路徑，因此本分塊遠(yuǎn)端信號與自適應(yīng)濾波器系數(shù)進(jìn) 行卷積可W得到估計回聲信號xT(n)w(n)，誤差信號e(n)即為本分塊的近端信號d(n)與估計回聲信號xT(n)w(n)之差。
[0063] 自適應(yīng)濾波器系數(shù)是根據(jù)自適應(yīng)算法，利用誤差信號和遠(yuǎn)端信號不斷更新的。一種常用的更新算法一一LMS算法的更新公式如下：
[0064] w(n+l) =w(n)+2]ie(n)x(n) (9)
[0065] 其中，y是步長，w(n)是濾波器權(quán)重向量，e(n)是誤差信號，x(n)是遠(yuǎn)端信號。n代表第n個時刻(采樣點(diǎn)）。
[0066] 步驟S302:計算遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)。由于時域的互相關(guān)運(yùn)算可 W轉(zhuǎn)換為頻域的點(diǎn)乘，即兩個信號頻譜值逐點(diǎn)相乘，因此可W直接利用遠(yuǎn)端信號頻譜X化）和誤差信號頻譜E化)求得該歸一化互相關(guān)的值，計算復(fù)雜度較低。歸一化互相關(guān)在頻域的計算方法：
[0067]
(…）
[0068] Cxegg表示遠(yuǎn)端信號和巧差信號的歸一化互相關(guān)，k表示頻點(diǎn)。
[0069] 步驟S303:DTD判決。比較遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)Cxegg和歸一化互相關(guān)口限。當(dāng)近端無語音時，遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)Cxecc應(yīng)該等于1，而近端有語音時，歸一化互相關(guān)Cxecc小于1。因此，可W設(shè)置一個略小于1的常數(shù)Txecc作為口限值，Txecc 通常取值在0.9到1之間，且該口限值根據(jù)檢測結(jié)果實(shí)時更新。更新的算法根據(jù)實(shí)際情況選取。一個好的口限值應(yīng)該使誤報概率和漏報概率都相對較小。例如:可W首先任意選擇一個略小于1的常數(shù)，然后設(shè)置近端語音為0,計算誤報概率和漏報概率，在一定范圍內(nèi)調(diào)整 Txecc，直到誤報概率和漏報概率都較小。
[0070] 當(dāng)歸一化互相關(guān)小于口限時，即：
[0071] Cxecc<Txecc (11)系統(tǒng)處于雙端通話狀態(tài)，停止濾波器系數(shù)更新，直接使用原來的濾波器系數(shù)對近端信號進(jìn)行濾波；否則，不存在近端語音，只存在遠(yuǎn)端語音，運(yùn)時既進(jìn)行濾波器系數(shù)更新，也進(jìn)行濾波。
[0072] 將本發(fā)明提出的語音狀態(tài)檢測方法應(yīng)用于實(shí)際的回聲消除系統(tǒng)中，包括兩個終端，使用VoIP軟件Sip化Oid對實(shí)際通話效果進(jìn)行驗(yàn)證。
[0073] 首先使用matlab對本發(fā)明提出的結(jié)合VAD和DlD的語音狀態(tài)檢測方法進(jìn)行仿真。仿真所用的語音信號包括1段30秒的遠(yuǎn)端語音PCM(PulSe Code Modulation,脈沖編碼調(diào)制）流W及1段與之對應(yīng)的近端語音PCM流，采樣頻率均為8000化。在回聲消除系統(tǒng)中，濾波器的長度設(shè)為128,自適應(yīng)濾波算法采用BFDAF算法（即頻域的NLMS算法），而語音狀態(tài)檢測算法采用本發(fā)明提出的語音狀態(tài)檢測方法。
[0074] 如圖2所示，為仿真所用的兩段PCM流。從上至下依次為遠(yuǎn)端信號波形、近端信號波形。橫坐標(biāo)為時間，單位S;縱坐標(biāo)為幅度值。采用原有的語音狀態(tài)檢測方法，即僅使用基于能量的DlD檢測，回聲消除效果如圖3所示。從圖中可W看出，在VAD未改進(jìn)的條件下，前半段的回聲消除效果較好，但還是存在少量殘余回聲;后半段的效果則不是很理想，原聲被消除得比較多，回聲消除后的信號產(chǎn)生了較大失真。
[0075] 采用本發(fā)明提出的語音狀態(tài)檢測方法，回聲消除的效果如圖4所示。對比改進(jìn)之前和改進(jìn)之后分別進(jìn)行回聲消除后得到的兩段PCM流，可W看出回聲消除效果在改進(jìn)語音狀態(tài)檢測方法后有明顯的改善。殘余回聲消除更加徹底，近端語音也幾乎沒有出現(xiàn)失真現(xiàn)象。
[0076] 為了進(jìn)一步驗(yàn)證本發(fā)明提出的語音狀態(tài)檢測方法在實(shí)際回聲消除系統(tǒng)中的效果，對該方法編寫相應(yīng)的C程序，并利用語音通信軟件Sipdroid對該方法進(jìn)行測試。
[0077] 根據(jù)本發(fā)明的語音狀態(tài)檢測方法的步驟修改回聲消除庫WebRTC中執(zhí)行VAD和DTD 的部分，然后在Sipdroid中調(diào)用該回聲消除庫。在不同環(huán)境下使用Sipdroid進(jìn)行實(shí)際雙端通話并進(jìn)行錄音，保存回聲消除前后的語音PCM流，W便進(jìn)行回聲消除效果分析。
[0078] 為了在取出語音流后進(jìn)行觀察分析時比較方便和清晰，每次測試中，兩位通話者依次從1到10進(jìn)行報數(shù)。在不同環(huán)境下，分別對改進(jìn)前和改進(jìn)后的Sipdroid版本進(jìn)行多次通話測試W便進(jìn)行對比。
[0079] 首先對使用改進(jìn)前的回聲消除庫的Sipdroid回聲消除效果進(jìn)行多次通話測試，并取出遠(yuǎn)端、近端和回聲消除后的PCM流。巧聯(lián)結(jié)果如圖5所示，圖中僅截取報數(shù)部分的PCM流。其中，第一段PCM流是遠(yuǎn)端信號，第二段PCM流是近端信號，第S段PCM流是回聲消除后的近端信號。可見，回聲消除效果不是很理想，報數(shù)部分有少許殘余回聲，虛線框圈出部分。其他測試結(jié)果大部分與此類似。
[0080] 然后，對使用改進(jìn)后的回聲消除庫的Sipdroid的回聲消除效果也使用同樣方法進(jìn) 行多次通話測試，并取出遠(yuǎn)端、近端和回聲消除后的PCM流。圖6為比較有代表性的一次測試結(jié)果。與圖5類似，圖中第一段PCM流是遠(yuǎn)端信號，第二段PCM流是近端信號，第S段PCM流是回聲消除后的近端信號?？梢?，使用本發(fā)明改進(jìn)后的語音檢測方法后，回聲消除效果比較理想，報數(shù)部分的殘余回聲消除比較徹底，如虛線框圈出部分，同時原聲的保留也沒有受到影響。多次測試發(fā)現(xiàn)，在不同環(huán)境下，回聲消除的效果會受到一定影響，穩(wěn)定性還有待進(jìn)一步提高。但在大多數(shù)情況下，使用本發(fā)明的語音狀態(tài)檢測方法后的回聲消除效果都較改進(jìn)前的回聲消除效果有明顯改善。
【主權(quán)項】
1. 一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，其特征在于，實(shí)現(xiàn)步驟如下：第一步:利用噪聲訓(xùn)練樣本和語音訓(xùn)練樣本構(gòu)造支持向量機(jī)SVM分類器；分別對噪聲訓(xùn)練樣本和語音訓(xùn)練樣本進(jìn)行特征值提取和高斯混合模型GMM訓(xùn)練，構(gòu)造對應(yīng)的高斯超向量，然后利用高斯超向量構(gòu)造SVM分類器的核函數(shù)，以及語音信號和噪聲信號對應(yīng)的SVM模型;使用構(gòu)造好的核函數(shù)和SVM模型構(gòu)造得到SVM分類器；第二步:待檢測信號是分塊后的遠(yuǎn)端和近端信號，使用構(gòu)造好的SVM分類器對本分塊遠(yuǎn) 端信號進(jìn)行VAD判決;VAD表示語音活動性檢測；對本分塊遠(yuǎn)端信號進(jìn)行特征值提取和GMM訓(xùn)練，構(gòu)造高斯超向量，然后本分塊遠(yuǎn)端信號對應(yīng)的高斯超向量輸入到構(gòu)造好的SVM分類器中進(jìn)行判決;如果判斷結(jié)果為噪聲，表示無語音，則停止濾波器更新和濾波，直接輸出近端語音信號，否則說明遠(yuǎn)端有語音，進(jìn)行下一步的雙端通話判決；第三步:判斷系統(tǒng)是否屬于雙端通話狀態(tài)；計算遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)ΙΧΕα;比較歸一化互相關(guān)ξχΕ(Χ和設(shè)置的門限 TXECC，當(dāng)|XEGG<TXEGG時，系統(tǒng)處于雙端通話狀態(tài)，停止濾波器系數(shù)更新，對近端信號進(jìn)行濾波;否則，近端無語音，根據(jù)遠(yuǎn)端信號進(jìn)行濾波器系數(shù)更新和濾波。2. 根據(jù)權(quán)利要求1所述的一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，其特征在于，所述的第一步構(gòu)造SVM分類器，包括如下步驟：步驟S101:對噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本進(jìn)行特征值提取;所采用的特征值是Mel倒譜系數(shù)MFCC; MFCC的提取過程是:對信號進(jìn)行預(yù)加重、分塊及加窗處理，將加窗后的分塊經(jīng)過快速傅里葉變換FFT求出每一分塊的頻譜參數(shù);將每一分塊的頻譜參數(shù)通過一組由K個三角形帶通濾波器所組成的Mel刻度濾波器，并對每個頻帶的輸出取對數(shù)，獲得對數(shù)頻譜;設(shè)K個帶通濾波器的編號從〇到K-1，則第i個分塊通過編號k的帶通濾波器后對應(yīng)得到的對數(shù)頻譜為Si (k)，第i個分塊的MFCC的第1階參數(shù)nu(l)為：(1) 其中，L為提取的MFCC的總階數(shù)；步驟S102:生成噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本的高斯超向量；分別利用噪聲信號訓(xùn)練樣本和語音信號訓(xùn)練樣本的MFCC參數(shù)建立噪聲信號和語音信號對應(yīng)的高斯混合模型；對某一分塊，N階高斯混合模型g(x)表示為：其中，X是訓(xùn)練樣本本分塊的MFCC參數(shù)構(gòu)成的L維特征向量，Pi(x)為高斯混合模型的第i 個高斯分量，為第i個高斯分量的加權(quán)因子是第i個高斯分量的協(xié)方差矩陣，μι是第i 個高斯分量的均值向量；高斯混合模型g(x)進(jìn)一步表示為⑷= 疋凡,4);N(.)表示高斯概率密度函 i-1 數(shù)；采用最大期望算法進(jìn)行高斯混合模型參數(shù)的更新，設(shè)最后得到語音信號訓(xùn)練樣本的高斯混合模型為g(s)，其中各高斯分量的均值向量為/<，長%…，/4表示語音信號;最后得到的噪聲信號訓(xùn)練樣本的高斯混合模型為g(n)，其中各高斯分量的均值向量為 η表示噪聲信號;利用建立好的高斯混合模型構(gòu)造語音信號訓(xùn)練樣本和噪聲信號訓(xùn)練樣本的尚斯超向量ms和Π?η分別為：步驟S103:利用構(gòu)造好的高斯超向量構(gòu)造SVM分類器；分別利用高斯超向量施和!^建立噪聲信號和語音信號對應(yīng)的SVM模型；利用高斯超向量mn和ms構(gòu)造核函數(shù)K (η，s)如下：確定核函數(shù)、語音信號的SVM模型和噪聲信號的SVM，得到SVM分類器。3. 根據(jù)權(quán)利要求1或2所述的一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，其特征在于，所述的第三步中，計算誤差信號的方法是:將本分塊遠(yuǎn)端信號與自適應(yīng)濾波器系數(shù)進(jìn)行卷積得到估計回聲信號，誤差信號為本分塊近端信號與估計回聲信號之差。4. 根據(jù)權(quán)利要求1或2所述的一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，其特征在于，所述的第三步中，根據(jù)下面公式計算遠(yuǎn)端信號和誤差信號的歸一化互相關(guān)Ixecc:其中，k表示頻點(diǎn)，X(k)為遠(yuǎn)端信號頻譜，E(k)為誤差信號頻譜。5. 根據(jù)權(quán)利要求1或2所述的一種適用于回聲消除系統(tǒng)的語音狀態(tài)檢測方法，其特征在于，所述的第三步中，設(shè)置的門限Txecc為0.9到1之間的值，并根據(jù)判決結(jié)果進(jìn)行實(shí)時更新。
【文檔編號】G10L25/84GK105957520SQ201610519040
【公開日】2016年9月21日
【申請日】2016年7月4日
【發(fā)明人】王珂, 明萌, 紀(jì)紅, 李曦, 張鶴立
【申請人】北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載