采用感知模型的語音增強(qiáng)的制作方法

文檔序號：6187085閱讀：300來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

專利名稱：采用感知模型的語音增強(qiáng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理。更具體地，它涉及噪聲環(huán)境中的語音增強(qiáng)和凈化(clarification)。以引用方式包含的內(nèi)容這里以引用方式分別包含以下公開出版物的全部內(nèi)容。 [1
S. F. Boll, "Suppression of acoustic noise in speech using spectralsubtraction,"7>"/w. y4co組，5^eee/ ' 尸"oce幼'"g, vol. 27,.pp. 113-120, Apr, 1979.[2] B. Widrow and S. D. Stearns, ^Wa/ /ive 5Ygwfl/尸n cej5/wg. EnglewoodCliffs, NJ: Prentice Hall, 1985. [3〗 Y. Ephraim and D. Malah, "Speech enhancement using a minimummean square error short time spectral amplitude estimator," 7>o/w.」cowW" Speech. 57g"a//Vocew!"g， vol. 32， pp. 1109-1121， Dec. 1984. [4] Y, Ephraim and D. Malah, "Speech enhancement using'a minimummean square error Log-spectral amplitude estimator," 7Vw"51.力cowj/" 5"peec/j, SVg"fl//Vocw'"g， vol. 33, pp. 443-445， Dec. 1985. [5] P. J. Wolfe and S. J. Godsill, "Efficient alternatives' to Ephraim and.Malah suppression rule for audio signal enhancement,"五L^S/P/oMma/ oat /i/7_p//ed 5Vgna/ /Voce咖'"g, vol, 2003, Issue 10, Pages 1043-1051,2003.[6] R, Martin, "Spectral subtraction based on minimum statistics," ￡"OTCO， 1994, pp. U 82-1185.[7〗E. Terhardt， "Calculating Virtual Pitch," //e"〃'"g ^ejearA, pp.55-182, 1,979. 1SO/IEC JTC1 /SC29/WG11, //t/o應(yīng)ft'o" fec/mo/ogy — CoW"g o/
moW"g/n'c似r&s assocz'flfed a"^//od/g"a/加rage meWa ct《wjo /o
a6oi" 7.5M歸-Pa/^: A我IS 11172-3, 1992 [9] J. Johnston, "Transform coding of audio signals using perceptual noise
criteria," /￡￡￡V. Se/e".加o Co麵"n., vol, 6, pp. 314-323， Feb.
1988. S. Gustafsson, P. Jax, P Vary,, "A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics," iVoceW"gs o//mmia"'oW Co _/^*e ce ow/4cowWcs, 5^eec/i, <3"d iS7g"a/ZVocew:"g， 1998. ICASSP '98. Yi Hu， and P. C. Loizou， "Incorporating a psychoacoustic model in frequency domain speech enhancement,"57g"a/尸rocewz."g 丄e/ter， pp. 270 — 273， vol. H, no. 2, Feb. 2004. (23)
可使用其它心理聲學(xué)模型獲得掩蔽閾值附a。其它的可能性包含 (參考文獻(xiàn)[8)中描述的心理聲學(xué)模型I和模型II以及在(參考文獻(xiàn)9)中說明的心理聲學(xué)模型。
抑制增益的計(jì)算(圖3， 50)
各子帶的抑制增益^的值(/t-i， ...，m確定最終信號中的噪聲
降低和語音畸變的程度。為了得到最優(yōu)的抑制增益，代價(jià)函數(shù)被定義如下
= A卩og,o 4 一 logl0 M ]2 + max
語音畸變
' -1 、，2
(24)
可感知噪聲
如下劃線的括號表示的那樣，該代價(jià)函數(shù)具有兩個(gè)要素。標(biāo)有"語音畸變"的項(xiàng)是施加抑制增益&前后的語音分量幅度的log之間的差
13值。標(biāo)有"可感知噪聲"的項(xiàng)是掩蔽閾值的log和施加抑制增益^之后的估計(jì)的噪聲分量幅度的log之間的差值。注意，如果在施加抑制增益之后噪聲分量的log低于掩蔽閾值，那么"可感知噪聲，，項(xiàng)消失。代價(jià)函數(shù)可被進(jìn)一步表達(dá)為
語音畸變
1og,。g^ -會log,o,"()，O
(25)
可感知噪聲
式(25)中的語音畸變項(xiàng)與可感知噪聲項(xiàng)的相對重要性由加權(quán)因
子A確定，這里，
0 S A < 00 (26)
最優(yōu)抑制增益使由式(25)表示的代價(jià)函數(shù)最小化。 g^argminC* (27)
G關(guān)于A的導(dǎo)數(shù)祐:設(shè)為等于零，并且二階導(dǎo)數(shù)被驗(yàn)證為正，從而
產(chǎn)生以下規(guī)則
^M22,吣A
(28)
否則
式(28)可被解釋如下假定Q是尿-O的情況下即與不考慮語音畸變的情況對應(yīng)的使代價(jià)函數(shù)Q最小化的抑制增益
(29)
1 否則
很顯然，由于《x^S^，因此施加&之后的子帶信號中的噪聲的功率將不大于掩蔽閾值。因此，它將被掩蔽并變得聽不見。換句話
說，如果語音畸變不被考慮，即通過A-0使式(25)中的"語音畸變"項(xiàng)為零，那么，G^是將未掩蔽的噪聲分量抑制到可聽度的閾值或以下所需要的最優(yōu)抑制增益。
但是，如果考慮語音畸變，那么(^可能不再是最優(yōu)的，并且會導(dǎo)
致畸變。為了避免這一點(diǎn)，通過指數(shù)因子;u附)進(jìn)一步修改最終的抑
〔w
〔〃制增益&,其中，加權(quán)因子A使語音畸變的程度相對于可感知噪聲的
程度平衡(見式25)。加權(quán)因子尿可由語音增強(qiáng)器的設(shè)計(jì)人員選擇。它也可以是取決于信號的。因此，加權(quán)因子A限定式(25)中的語音畸變項(xiàng)與噪聲抑制項(xiàng)之間的相對重要性，該相對重要性又驅(qū)動對于式 (29)的"非語音"抑制增益的修改程度。換句話說，A的值越大，則"語音畸變"越多地主導(dǎo)對抑制增益&的確定。
因此，尿在確定增強(qiáng)的信號的所得到的質(zhì)量中起重要作用。一般而言，較大的A的值導(dǎo)致較小的畸變語音但較大的殘留噪聲。相反，較小的A的值消除較多的噪聲但以在語音分量中具有較多的畸變?yōu)榇?價(jià)。在實(shí)際中，可根據(jù)需要調(diào)整爲(wèi)的值。
一旦獲知^，就可獲得增強(qiáng)的子帶信號("對于R(附)施加&以產(chǎn)生增強(qiáng)的子帶信號g(m); A:-l，…，幻52:
子帶信號g(w)然后可用于產(chǎn)生增強(qiáng)的語音信號？(")(使用合成濾波器組，從《(m)產(chǎn)生增強(qiáng)的語音信號只")；*=1，…，IT) 54。時(shí)間索引m
然后前進(jìn)l ( "m—m+l" 56)并且重復(fù)圖3的過程。
實(shí)現(xiàn)
可以在硬件或軟件或兩者的組合(例如，可編程的邏輯陣列)中實(shí)現(xiàn)本發(fā)明。除非另外規(guī)定，否則，作為本發(fā)明的一部分包含的過程不固有地與任何特定計(jì)算機(jī)或其它裝置相關(guān)。特別地，可以與根據(jù)這里的教導(dǎo)而編寫的程序一起使用各種通用機(jī)器，或者，構(gòu)建更專用的裝置(例如，集成電路)以執(zhí)行所需要的方法步驟會更加方便。因此，可以以在一個(gè)或更多個(gè)可編程計(jì)算機(jī)系統(tǒng)上執(zhí)行的一個(gè)或更多個(gè)計(jì)算機(jī)程序?qū)崿F(xiàn)本發(fā)明，這些可編程計(jì)算機(jī)系統(tǒng)各包含至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲系統(tǒng)(包含易失性和非易失性存儲器和/或存儲元件)、至少一個(gè)輸入設(shè)備或端口以及至少一個(gè)輸出設(shè)備或端口。對于輸入數(shù)據(jù)施加程序代碼以執(zhí)行這里描述的功能并產(chǎn)生輸出信息。以已知的方式對于一個(gè)或更多個(gè)輸出設(shè)備施加輸出信息。
1可以以任何希望的計(jì)算機(jī)語言(包含機(jī)器、匯編或高級程序、邏輯或面向?qū)ο蟮木幊陶Z言)實(shí)現(xiàn)各個(gè)這種程序，以與計(jì)算機(jī)系統(tǒng)通信。在任何情況下，該語言可以是經(jīng)過編譯或解釋的語言。
各個(gè)這種計(jì)算機(jī)程序優(yōu)選被存儲或下載到可被通用或?qū)Ｓ每删幊?計(jì)算機(jī)讀取的存儲介質(zhì)或設(shè)備(例如，固態(tài)存儲器或介質(zhì)或磁介質(zhì)或光學(xué)介質(zhì))上，用于在存儲介質(zhì)或設(shè)備被計(jì)算系統(tǒng)讀取時(shí)配置和操作
該計(jì)算機(jī)以執(zhí)行這里描述的過程。還可考慮將本發(fā)明的系統(tǒng)實(shí)現(xiàn)為配有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲介質(zhì)，這里，這樣配置的存儲介質(zhì)使
計(jì)算機(jī)系統(tǒng)以特定和預(yù)定的方式操作以執(zhí)行這里描述的功能。
已描述了本發(fā)明的多個(gè)實(shí)施例。盡管如此，應(yīng)當(dāng)理解，可以不背離本發(fā)明的精神和范圍而進(jìn)行各種變型。例如，這里描述的步驟中的一些可以是與次序無關(guān)的，因此可以以與這里描述的次序不同的次序被執(zhí)行。
16DFT DSP
MSE
MMSE-STSA
MMSE-LAS
SNR
SPL
T/F
附錄A 縮略詞和術(shù)語的詞匯表離散傅立葉變換數(shù)字信號處理均方誤差
最小MSE短時(shí)譜幅度
最小MSE Log謙幅度
信噪比
聲壓級
時(shí)間/頻率y(w)， /i = 0、 1
》) ，)
物)
艱附) A(附)
似w) 鄉(xiāng)，碌)
ix(A:)
緣)
《
〃
附a
附錄B 符號的列表 oo數(shù)字化的時(shí)間信號增強(qiáng)的語音信號子帶信號A 增強(qiáng)的子帶信號A 子帶A的語音分量子帶A的噪聲分量子帶/t的抑制增益帶噪語音幅度帶噪語音相位語音分量幅度估計(jì)的語音分量幅度語音分量相位噪聲分量幅度估計(jì)的噪聲分量幅度噪聲分量相位增益函數(shù)
語音分量方差
估計(jì)的語音分量方差
噪聲分量方差
估計(jì)的噪聲分量方差
先驗(yàn)的語音分量與噪聲的比
后驗(yàn)的語音分量與噪聲的比
先驗(yàn)的噪聲分量與噪聲的比
后驗(yàn)的噪聲分量與噪聲的比
預(yù)選擇的常數(shù)
掩蔽閾值
18子帶A的SPL信號
功率歸一化項(xiàng)
非歸一化掩蔽閾值的矩陣
子帶)的中心頻率，單位是Hz
柳線性頻率到Bark頻率映射函數(shù)
W，力子帶/'到子帶,'的擴(kuò)展函數(shù)
Bark中的被掩蔽信號_掩蔽信號分離
TO子帶/t的非歸一化掩蔽函數(shù)
子帶A的歸一化掩蔽函數(shù)
柳子帶A的全局掩蔽閾值
，)子帶A的SPL中的絕對聽力閾值
代價(jià)函數(shù)
代價(jià)函數(shù)的可調(diào)整參數(shù)
權(quán)利要求
1.一種用于增強(qiáng)由語音分量和噪聲分量構(gòu)成的音頻信號的語音分量的方法，包括將所述音頻信號從時(shí)域變換為頻域中的多個(gè)子帶，處理所述音頻信號的子帶，所述處理包含響應(yīng)控制而自適應(yīng)地降低所述子帶中的一些子帶的增益，其中，至少部分地從所述子帶中的所述一些子帶中的音頻信號的噪聲分量的幅度的估計(jì)得出所述控制，和將處理后的音頻信號從頻域變換成時(shí)域以提供語音分量被增強(qiáng)的音頻信號。
2. 根據(jù)權(quán)利要求l的方法，其中，還至少部分地從通過對心理聲學(xué)掩蔽模型應(yīng)用所述音頻信號的語音分量的幅度的估計(jì)得到的所述子帶中的所述一些子帶中的每一個(gè)子帶中的掩蔽閾值得出所述控制。
3. 根據(jù)權(quán)利要求2的方法，其中，當(dāng)子帶中的噪聲分量的幅度的所述估計(jì)高于所述子帶中的所述掩蔽閾值時(shí)，所述控制使得降低所述子帶的增益。
4. 根據(jù)權(quán)利要求3的方法，其中，所述控制使得降低子帶的增益，使得施加增益改變之后的噪聲分量的幅度的估計(jì)等于或低于所述子帶中的掩蔽閾值。
5. 根據(jù)權(quán)利要求3或4的方法，其中，響應(yīng)使語音畸變的程度與可感知噪聲的程度平衡的加權(quán)因子，減小增益降低的量。
6. 根據(jù)權(quán)利要求5的方法，其中，所述加權(quán)因子是可選擇的設(shè)計(jì) 參數(shù)。
7. 根據(jù)權(quán)利要求1 6中的任一項(xiàng)的方法，其中，音頻信號的語音分量的幅度的估計(jì)已被應(yīng)用于將語音分量的能量分布于相鄰頻率子帶的擴(kuò)展函數(shù)。
8. —種適于執(zhí)行權(quán)利要求1~7中的任一項(xiàng)的方法的裝置。
9. 一種存儲在計(jì)算機(jī)可讀介質(zhì)上、用于使計(jì)算機(jī)執(zhí)行權(quán)利要求 1 7中的任一項(xiàng)的方法的計(jì)算機(jī)程序。
全文摘要
公開了一種基于心理聲學(xué)模型的語音增強(qiáng)，所述語音增強(qiáng)能夠保留語音的保真度同時(shí)充分地抑制包含被稱為“音樂噪聲”的對人工產(chǎn)物的處理的噪聲。
文檔編號G01L21/02GK101636648SQ200880008865
公開日2010年1月27日申請日期2008年3月14日優(yōu)先權(quán)日2007年3月19日
發(fā)明者俞容山申請人:杜比實(shí)驗(yàn)室特許公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：俞容山
技術(shù)所有人：杜比實(shí)驗(yàn)室特許公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計(jì)及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計(jì)的應(yīng)力分析、強(qiáng)度校核的計(jì)算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音感知相關(guān)技術(shù)

語音信號壓縮感知相關(guān)技術(shù)

感知機(jī)模型相關(guān)技術(shù)

供應(yīng)商感知模型相關(guān)技術(shù)

顧客感知服務(wù)質(zhì)量模型相關(guān)技術(shù)

感知器模型相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

采用感知模型的語音增強(qiáng)的制作方法