午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

編碼器、解碼器以及用于編碼和解碼的方法與流程

文檔序號:11142446閱讀:2760來源:國知局
編碼器、解碼器以及用于編碼和解碼的方法與制造工藝

本發(fā)明的實施例涉及用于對音頻信號進行編碼以獲得數(shù)據(jù)流的編碼器以及用于對數(shù)據(jù)流進行解碼以獲得音頻信號的解碼器。其他實施例涉及用于對音頻信號進行編碼以及用于對數(shù)據(jù)流進行解碼的對應方法。又一實施例涉及進行用于編碼和/或解碼的方法的步驟的計算機程序。



背景技術:

待被編碼的音頻信號可以,例如,為語音信號;即編碼器與語音編碼器相對應且解碼器與語音解碼器相對應。語音編碼中最常用的范例為用于諸如AMR-家族、G.718以及MPEG USAC的標準中的代數(shù)碼激勵線性預測(ACELP)。它基于使用源模型的建模語音,由用于對頻譜包絡進行建模的線性預測器(LP)、用于對基頻進行建模的長期預測器(LTP)以及用于殘差的代數(shù)碼本組成。在感知加權合成域中,碼本參數(shù)被優(yōu)化。感知模型基于濾波器,由此,通過線性預測器和加權濾波器的組合描述從殘差至加權輸出的映射。

ACELP編解碼器中的計算復雜度的最大部分花費在選擇代數(shù)碼本條目上,其基于殘差的量化。從殘差域至加權合成域的映射本質上是乘以大小為N×N的矩陣,其中N為向量長度。由于此映射,就加權輸出SNR(信噪比)而言,殘差樣本是相關的且無法被獨立地量化。由此得出結論,在加權合成域中,需要明確地評估每個可能的碼本向量以確定最佳條目。此方法被稱為合成-分析算法。僅利用碼本的暴力搜索,最優(yōu)性能是可能的。碼本大小取決于比特率,但考慮B的比特率,存在2B個條目需要評估,總復雜度為O(2BN2),當B大于或等于11時,這明顯是不切實際的。在實際中,編解碼器因此利用在復雜度和質量之間權衡的非最優(yōu)量化。已存在一些用于找到以準確率為代價限制復雜度的最佳量化的迭代算法。為了克服此限制,需要新方法。



技術實現(xiàn)要素:

本發(fā)明的目的在于提供一種用于編碼和解碼音頻信號同時避免上述缺陷的概念。

通過獨立權利要求實現(xiàn)此目的。

第一實施例提供一種用于將音頻信號編碼為數(shù)據(jù)流的編碼器。該編碼器包括:(線性或長期)預測器、因子分解器(factorizer)、變換器、以及量化的編碼階段。預測器用于分析音頻信號以獲得描述音頻信號的頻譜包絡或音頻信號的基頻的(線性或長期)預測系數(shù)并用于使得音頻信號服從取決于預測系數(shù)的分析濾波函數(shù)以輸出音頻信號的殘差信號。因子分解器用于將矩陣因子分解應用于由預測系數(shù)定義的合成濾波函數(shù)的自相關或協(xié)方差矩陣以獲得經(jīng)因子分解的矩陣。變換器用于基于經(jīng)因子分解的矩陣對殘差信號進行變換以獲得變換的殘差信號。量化和編碼階段用于對變換的殘差信號進行量化以獲得量化后的變換的殘差信號或經(jīng)編碼的量化后的變換的殘差信號。

另一實施例提供一種用于將數(shù)據(jù)流解碼為音頻信號的解碼器。該解碼器包括:解碼階段、再變換器以及合成階段。解碼階段用于基于入站的量化后的變換的殘差信號或基于入站的經(jīng)編碼的量化后的變換的殘差信號輸出變換的殘差信號。再變換器用于基于從合成濾波函數(shù)的自相關或協(xié)方差矩陣的矩陣因子分解產(chǎn)生的經(jīng)因子分解的矩陣,從變換的殘差信號再變換為殘差信號,合成濾波函數(shù)由描述音頻信號的頻譜包絡或音頻信號的基頻的預測系數(shù)定義。合成階段用于通過使用由預測系數(shù)定義的合成濾波函數(shù)基于殘差信號合成音頻信號。

正如基于這兩個實施例可見的,編碼和解碼為使得此概念可比擬于ACELP的兩階段過程。第一步驟使能關于頻譜包絡或基頻的合成的量化,其中第二階段能夠實現(xiàn)殘差信號(也稱為激勵信號并表示在利用音頻信號的頻譜包絡或基頻對信號進行濾波之后的信號)的(直接)量化或合成。同樣,類似于ACELP,殘差信號或激勵信號的量化遵守優(yōu)化問題,其中與ACELP相比,根據(jù)本文中所公開的教示的優(yōu)化問題的目標函數(shù)存在本質區(qū)別。詳細地,本發(fā)明的教示基于矩陣因子分解用于對優(yōu)化問題的目標函數(shù)進行去相關,由此可避免計算昂貴的迭代并保證最優(yōu)性能的原理。作為所附實施例的一個核心步驟的矩陣因子分解包括于編碼器實施例中,且優(yōu)選地而非必須地可包括于解碼器實施例中。

矩陣分子分解可基于不同技術,例如特征值分解、范德蒙因子分解或任何其他因子分解,其中,對于每種所選的技術,因子分解進行因子分解的是矩陣,如由編碼或解碼的第一階段(線性預測器或長期預測器)中的第一音頻檢測到的(線性或長期)預測系數(shù)定義的合成濾波函數(shù)的自相關或協(xié)方差矩陣。

根據(jù)另一實施例,因子分解器對包括使用矩陣存儲的預測系數(shù)的合成濾波函數(shù)進行因子分解,并對合成濾波函數(shù)矩陣的加權形式進行因子分解。例如,可通過使用范德蒙矩陣V、對角矩陣D以及范德蒙矩陣的共軛變換形式V進行因子分解。可使用公式R=V*DV或C=VDV對范德蒙矩陣進行因子分解,其中自相關矩陣R或協(xié)方差矩陣C由合成濾波函數(shù)矩陣的共軛變換形式H以及合成函數(shù)矩陣H的正則形式定義,即R=HH或C=H*H。

根據(jù)又一實施例,變換器,從先前確定的對角矩陣D的和先前確定的范德蒙矩陣V,使用公式y(tǒng)=D1/2Vx或公式y(tǒng)=DVx將殘差信號x變換為變換的殘差信號y。

根據(jù)又一實施例,量化和編碼階段此刻能夠對變換的殘差信號y進行量化以獲得量化后的變換的殘差信號此變換為優(yōu)化問題,如上所論述,其中使用目標函數(shù)此處,有利的是,與用于不同的編碼或解碼方法的目標函數(shù)(如,ACELP編碼器中使用的目標函數(shù))相比,此目標函數(shù)具有減小的復雜度。

根據(jù)實施例,解碼器從編碼器接收經(jīng)因子分解的矩陣,如和數(shù)據(jù)流一起?;蚋鶕?jù)另一實施例,解碼器包括進行矩陣因子分解的可選的因子分解器。根據(jù)優(yōu)選實施例,解碼器直接接收經(jīng)因子分解的矩陣并從這些經(jīng)因子分解的矩陣得到預測系數(shù),因為矩陣都源于預測系數(shù)(參看編碼器)。此實施例能夠實現(xiàn)進一步地減小解碼器的復雜度。

又一實施例提供用于將音頻信號編碼為數(shù)據(jù)流以及用于將數(shù)據(jù)流解碼為音頻信號的對應方法。根據(jù)附加實施例,用于編碼的方法以及用于解碼的方法可由或至少部分地可由諸如計算機的CPU的處理器進行。

附圖說明

將參考所附附圖論述本發(fā)明的實施例,其中

圖1a顯示根據(jù)第一實施例的用于對音頻信號進行編碼的編碼器的示意性框圖;

圖1b顯示根據(jù)第一實施例的用于對音頻信號進行編碼的對應方法的示意性流程圖;

圖2a顯示根據(jù)第二實施例的用于對數(shù)據(jù)流進行解碼的解碼器的示意性框圖;

圖2b顯示根據(jù)第二實施例的用于對數(shù)據(jù)流進行解碼的對應方法的示意性流程圖;

圖3a顯示示出對于不同量化方法的作為每幀比特數(shù)的函數(shù)的平均感知信噪比的示意圖;

圖3b顯示示出作為每幀比特數(shù)的函數(shù)的不同量化方法的歸一化運行時間的示意圖;以及

圖3c顯示示出范德蒙變換的特征的示意圖。

具體實施方式

隨后以下將參考所附附圖詳細地論述本發(fā)明的實施例。此處,為具有相同或相似功能的對象提供相同的附圖標記,以使得其描述為可互換或互相適用的。

圖1顯示基本配置中的編碼器10。編碼器10包括:此處被實施為線性預測器12的預測器12、以及因子分解器14、變換器16以及量化和編碼階段18。

線性預測器12布置于輸入處以接收音頻信號AS,優(yōu)選地,數(shù)字音頻信號,如脈沖碼調制信號(PCM)。線性預測器12經(jīng)由所謂的LPC信道LPC連接至因子分解器14和編碼器的輸出處,參看附圖標記DSLPC/DSDV。更進一步地,線性預測器12經(jīng)由所謂的殘差信道連接至變換器16。反之亦然,變換器16在其輸入側(除殘差信道之外)連接至因子分解器14。在其輸出側,變換器連接至量化和編碼階段18,其中量化和編碼階段18連接至輸出(參看附圖標記)。兩個數(shù)據(jù)流DSLPC/DSDV和形成待被輸出的數(shù)據(jù)流DS。

以下將論述編碼器10的功能,其中額外參考描述用于編碼的方法100的圖1b。如根據(jù)圖1b可見的,用于將音頻信號AS編碼為數(shù)據(jù)流DS的基本方法100包括由單元12、14、16和18進行的四個基本步驟120、140、160和180。在第一步驟120中,線性預測器12分析音頻信號AS以獲得線性預測系數(shù)LPC。之后,描述音頻信號AS的頻譜包絡的線性預測系數(shù)LPC使得能夠使用所謂的合成濾波函數(shù)H去基本地合成音頻信號。合成濾波函數(shù)H可包括由LPC系數(shù)定義的合成濾波函數(shù)的加權值。使用LPC信道LPC,線性預測系數(shù)LPC被輸出至因子分解器14,以及被轉發(fā)至編碼器10的輸出處。線性預測器12更進一步地使得音頻信號AS服從由線性預測系數(shù)LPC定義的分析濾波函數(shù)H。此過程為由解碼器進行的基于LPC系數(shù)的音頻信號的合成的對應部分。此子步驟的結果是被輸出至變換器16的殘差信號x,而沒有由濾波函數(shù)H可描述的信號部分。請注意,此步驟是逐幀進行的,即,具有振幅和時域的音頻信號AS被劃分或采樣至如具有5毫秒的長度的時窗(樣本),并在頻域中被量化。

隨后的步驟為由變換器16進行的殘差信號x的變換(參看方法步驟160)。變換器16用于對殘差信號x進行變換以獲得被輸出至量化和編碼階段18的變換的殘差信號y。例如,變換160可基于公式y(tǒng)=D1/2Vx或公式y(tǒng)=DVx,其中矩陣D和V由因子分解器14提供。因此,殘差信號x的變換基于至少兩個經(jīng)因子分解的矩陣V(示例性地被稱為范德蒙矩陣)和D(示例性地被稱為對角矩陣)。

所應用的矩陣因子分解可被自由地選作,例如,特征值分解、范德蒙因子分解、喬里斯基(Cholesky)分解或類似。范德蒙因子分解可用作對稱、正定的托普利茲(Toeplitz)矩陣(如自相關矩陣)至范德蒙矩陣V和V的乘積的因子分解。對于目標函數(shù)中的自相關矩陣,此與通常稱作范德蒙變換的翹曲離散傅立葉變換相對應。在論述量化和編碼階段18的功能之后,將詳細論述由因子分解器14進行的表示本發(fā)明的基礎部分的矩陣因子分解的此步驟140。

量化和編碼階段18對從變換器16接收的變換的殘差信號y進行量化,以獲得量化后的變換的殘差信號此變換的量化后的殘差信號作為數(shù)據(jù)流的部分被輸出。請注意,整個數(shù)據(jù)流DS包括由DSLPC/DSDV指示的LPC-部分以及由指示的部分。

例如,使用目標函數(shù),例如,依據(jù)可進行變換的殘差信號y的量化。與ACELP編碼器的典型目標函數(shù)相比,此目標函數(shù)具有減小的復雜度,以使得編碼關于其性能被有利地改進。此性能改進可用于對具有較高分辨率的音頻信號AS進行編碼或用于減少所需資源。

應注意的是,信號可為經(jīng)編碼的信號,其中編碼由量化和編碼階段18進行。因此,根據(jù)其他實施例,量化和編碼階段18可包括可用于算術編碼的編碼器。量化和編碼階段18的編碼器可使用線性量化步驟(即,等距離)或諸如對數(shù)的、可變的量化步驟??蛇x地,編碼器可用于進行其他(無損)熵編碼,其中碼長度隨著奇異(singular)輸入信號AS的概率的函數(shù)而改變。因此,為了獲得優(yōu)選碼長度,作為可選選項,可以基于合成包絡以及因此基于LPC系數(shù)檢測輸入信號的概率。因此,量化的編碼階段還可具有用于LPC信道的輸入。

以下,將論述能夠實現(xiàn)目標函數(shù)η(y)的復雜度減小的背景。如以上所提及的,改進的編碼基于由因子分解器14進行的矩陣因子分解的步驟140。因子分解器14對諸如由線性預測系數(shù)LPC(參看LPC信道)定義的濾波合成函數(shù)H的自相關矩陣R或協(xié)方差矩陣C的矩陣進行因子分解。此因子分解的結果為兩個經(jīng)因子分解的矩陣,例如,表示包括奇異LPC系數(shù)的原始矩陣H的范德蒙矩陣V和對角矩陣D。由于此,殘差信號x的樣本為去相關的。由此得出結論,變換的殘差信號的直接量化(參看步驟180)為最優(yōu)量化,由此計算復雜度幾乎獨立于比特率。相比之下,用于ACELP碼本的優(yōu)化的傳統(tǒng)方法必須在計算復雜度和準確率之間進行權衡,尤其是在高比特率處。因此,實際上從傳統(tǒng)ACELP進程開始論述背景。

ACELP的傳統(tǒng)目標函數(shù)采用協(xié)方差矩陣的形式。根據(jù)改進的方法,存在應用加權合成函數(shù)的自相關矩陣的可選目標函數(shù)。基于ACELP的編解碼器優(yōu)化感知加權合成域中的信噪比(SNR)。目標函數(shù)可被表示為:

其中,x是目標殘差,為量化后的殘差,H為與加權合成濾波相對應的卷積矩陣,以及γ為比例增益系數(shù)。為了找到最優(yōu)量化標準方法為在η(x,γ)的導數(shù)為0處找到由γ指示的γ的最優(yōu)值。通過將最優(yōu)γ插入等式(1),獲得新的目標函數(shù):

其中,H*是合成函數(shù)H的共軛變換形式。

請注意,傳統(tǒng)方法H是下三角方卷積矩陣,由此,協(xié)方差矩陣C=HH為對稱的協(xié)方差矩陣。以全尺寸卷積矩陣對下三角矩陣的替代(由此,自相關矩陣R=HH為對稱的自相關矩陣)與加權合成濾波的其他相關相對應。此替代給出顯著減小的復雜度,而對質量的影響最小。

線性預測器14可使用協(xié)方差矩陣C或自相關矩陣R用于矩陣因子分解。以下論述針對這樣的假設作出:自相關R用于通過取決于LPC系數(shù)的矩陣的因子分解修改目標函數(shù)。通過包括特征值分解的一些方法,諸如R的對稱正定定義的托普利茲矩陣可被分解為:

R=VDV (3)

此處,V*為范德蒙矩陣V的共軛變換形式。在使用協(xié)方差矩陣C的傳統(tǒng)方法中,可應用其他因子分解,如奇異值分解C=USV。

對于自相關矩陣,還可使用以等式(3)的形式的可選因子分解,此處可被稱為范德蒙因子分解。范德蒙因子分解為能夠實現(xiàn)因子分解/變換的新概念。范德蒙矩陣具有|vk|=1的值以及

的V。并且,D為具有嚴格正條目的對角矩陣??梢砸詮碗s度為O(N3)的任意精度計算分解。直接分解具有為O(N^3)的典型計算復雜度,但在此處計算復雜度可被降低至O(N^2),或如果近似因子分解是足夠的,則復雜度可降低至O(N log N)。對于所選中的分解,可被定義為:

其中,x=V-1D-1/2y,且將其插入等式(2)可得到:

請注意,此處,y的樣本并非是彼此相關的,且以上的目標函數(shù)不過是目標與量化后的殘差之間的歸一化相關。由此可得出結論,y的樣本可被獨立地量化,且如果所有樣本的準確率是相等的,則此量化引致最佳的可能準確率。

在范德蒙因子分解的情況下,由于V具有|vk|=1的值,它與翹曲離散傅立葉變換相對應,且y的元素與殘差的頻率分量相對應。更進一步地,乘以對角矩陣D與頻帶的比例縮放相對應,且由此可得出結論,y為殘差的頻域表示。

與此相反,當特征值分解與傅立葉變換一致時,特征值分解僅在窗口長度接近無窮時具有物理解釋。有限長度的特征值分解因此松散地與信號的頻率表示相關,但將分量標記至頻率是困難的。再者,已知特征值分解是優(yōu)化基礎,由此它可在某些情況下給出最佳性能。

始于這兩個經(jīng)因子分解的V和D,變換器16進行變換160,以便使用由等式(5)定義的去相關的向量而對殘差信號x進行變換。

假定x是非相關的白噪聲,則Vx的樣本也將具有相等的能量期望。據(jù)此,可使用算術編碼器或使用代數(shù)碼本來對值進行編碼的編碼器。然而,Vx的量化并非是關于目標函數(shù)最優(yōu)的,因為它忽略了對角矩陣D1/2。另一方面,全變換y=D1/2Vx包括通過對角矩陣D的比例縮放,這改變了y的樣本的能量期望。創(chuàng)建具有非均勻方差的代數(shù)碼本并非是無關緊要的。因此,可將使用算術碼本而非獲得最優(yōu)比特消耗作為一種選項。然后可定義算術編碼,正如[14]中所披露的。

請注意,如果使用分解,如范德蒙變換或其他復雜變換,則實部和虛部為獨立的隨機變量。如果復變量的方差為σ2,則實部和虛部具有σ2/2的方差。諸如特征值分解的實值分解僅提供實值,由此實部和虛部的分離并非必須的。為了利用復值變換的更高性能,可應用用于復值的算術編碼的傳統(tǒng)方法。

根據(jù)以上實施例,預測系數(shù)LPC(參看DSLPC)被輸出為LSF信號(線譜頻率信號),其中,輸出經(jīng)因子分解的矩陣V和D(參看DSDV)內的預測系數(shù)LPC是可選選項。此可選選項通過由V、D標記的虛線以及DSDV是由因子分解器14的輸出產(chǎn)生的指示暗示。

因此,本發(fā)明的另一實施例涉及包括兩個經(jīng)因子分解的矩陣(DSVD)的形式的預測系數(shù)LPC的數(shù)據(jù)流(DS)。

關于圖2,將論述解碼器20和用于解碼的對應方法200。

圖2a顯示包括解碼階段22、可選的因子分解器24、再變換器26以及合成階段28的解碼器20。解碼階段22以及因子分解器24被布置于解碼器20的輸入處,且因此用于接收數(shù)據(jù)流DS。詳細地,數(shù)據(jù)流DS的第一部分,即線性預測系數(shù),被提供至可選的因子分解器24(參看DSLPC/DSDV),其中第二部分,即量化后的變換的殘差信號或經(jīng)編碼的量化后的變換的殘差信號被提供至解碼階段22(參看)。合成階段28被布置于解碼器20的輸出處,并用于輸出類似但不等于音頻信號AS的音頻信號AS’。

音頻信號AS’的合成基于LPC系數(shù)(參看DSLPC/DSDV)且基于殘差信號x。因此,合成階段28連接至輸入以接收DSLPC信號以及連接至提供殘差信號x的再變換器26。再變換器26基于變換的殘差信號y且基于至少兩個經(jīng)因子分解的矩陣V和D計算殘差信號x。因此,再變換器26具有至少兩個輸入,即用于(例如)從因子分解器24接收V和D的第一輸入,以及用于從解碼器階段接收變換的殘差信號y的一個輸入。

以下將參考圖2b示出的對應方法200詳細地論述解碼器20的功能。解碼器20(從編碼器)接收數(shù)據(jù)流DS。此數(shù)據(jù)信號DS使得解碼器20能夠合成音頻信號AS’,其中由DSLPC/DSDV指示的數(shù)據(jù)流的部分能夠實現(xiàn)基本信號的合成,其中由指示的部分能夠實現(xiàn)音頻信號AS’的細節(jié)部分的合成。在第一步驟220中,解碼器階段22對入站的信號進行解碼,并將變換的殘差信號y輸出至再變換器26(參看步驟260)。

并行的或串行的,因子分解器24進行因子分解(參看步驟240)。如關于步驟140所論述的,因子分解器24將矩陣因子分解應用于合成濾波函數(shù)H的自相關矩陣R或協(xié)方差矩陣C,即,解碼器20所使用的因子分解類似或接近類似于在編碼的上下文中描述的因子分解(參看方法100),且因此可為如上所論述的特征值分解或Cholesky因子分解。此處,合成濾波函數(shù)H得自入站的數(shù)據(jù)流DSLPC/DSDV。更進一步地,因子分解器24將兩個經(jīng)因子分解的矩陣V和D輸出至再變換器26。

基于兩個矩陣V和D,再變換器26從變換的殘差信號y再變換為殘差信號x并將x輸出至合成階段28(參看步驟280)。合成階段28基于殘差信號x以及基于作為數(shù)據(jù)流DSLPC/DSDV接收的LPC系數(shù)LPC合成音頻信號AS’。應注意的是,音頻信號AS’類似但不等于音頻信號AS,因為由編碼器10進行的量化并非是無損的。

根據(jù)另一實施例,經(jīng)因子分解的矩陣V和D可被從另一實體(例如,直接從編碼器10)提供至再變換器26(作為數(shù)據(jù)流的部分)。因此,解碼器20的因子分解器24以及矩陣因子分解的步驟240為可選的實體/步驟,且因此由虛線示出。此處,作為可選的選項,預測系數(shù)LPC(合成280基于此進行)可得自入站的經(jīng)因子分解的矩陣V和D。換句話說,這意味著數(shù)據(jù)流DS包括和矩陣V和D(即DSDV)而非和DSLPC

以下關于圖3a和3b論述以上所述的編碼(以及解碼)的性能改進。

圖3a顯示示出作為用于對可接收長度并等于64幀進行編碼的比特的函數(shù)的平均感知信噪比的示意圖。在圖中,示出用于五個不同量化方法的5條曲線,其中兩個方法即最優(yōu)量化和逐對迭代量化為傳統(tǒng)方法。公式(1)形成此對比的基礎。作為所提議的去相關方法的量化性能與殘差信號的傳統(tǒng)時域表示的對比,ACELP編解碼器已被實施如下。輸入信號被再采樣至12.8kHz,且利用在每一幀中心的長為32毫秒的漢明(Hamming)窗口估計線性預測器。然后,對于長為5毫秒并與AMR-WB編解碼器的子幀相對應的幀,計算預測殘差。利用窮舉搜索,以32至150個樣本之間的整數(shù)滯后對長期預測器進行優(yōu)化。最優(yōu)值用于未量化的LTP增益。

以(1-0.68z-1)濾波的預加重被應用于輸入信號,且像在AMR-WB中一樣應用于合成中。所應用的感知加權為A(0.92z-1),其中A(z)為線性預測濾波。

為了評估性能,需要對比所提議的量化與傳統(tǒng)方法(最優(yōu)量化和逐對迭代量化)。最常用的方法將長為64幀的幀的殘差信號劃分至4個交錯的通道。利用兩種方式即以窮舉搜索嘗試所有組合的最優(yōu)量化(參看Opt)方法或通過在每個可能位置嘗試兩個脈沖以連續(xù)地添加兩個脈沖的逐對迭代量化(參看,Pair),應用此方法。

前者對于每幀大于15個比特數(shù)的比特率變得計算上不可行且復雜的,而后者為次優(yōu)的。請注意,后者也比應用于諸如AMR-WB的編解碼器中的現(xiàn)有技術水平的方式更復雜,但因此也更有可能引致較佳的信噪比。將傳統(tǒng)方式與以上論述的用于量化的算法進行對比。

范德蒙量化(參看Vand)通過y=D1/2Vx對殘差向量x進行變換,其中從范德蒙因子分解獲得矩陣V和D并使用算術編碼器進行量化。特征值量化(參看Eig)類似于范德蒙量化,但矩陣V和D是通過特征值分解獲得的。更進一步地,還可應用FFT量化(參看FFT),即根據(jù)另一實施例,在y=D1/2Vx的變換處使用濾波的加窗的組合可被用于代替信號處理算法中的離散傅立葉變換(DFT)、離散余弦變換(DCT)、修正型離散余弦變換(MDCT)或其他變換。采取殘差信號的FFT(快速傅立葉變換),其中應用關于范德蒙量化的相同算術編碼器。FFT方法將明顯地給出低下質量,因為眾所周知將等式(2)中的樣本之間的相關考慮在內是很重要的。此量化因此為較低的參照點。

所述方法的性能的展示由評估如等式(1)所定義的平均長感知信噪比和方法復雜度的圖3a示出。可清楚地看出,如所預期的,F(xiàn)FT域中的量化給出最差的信噪比。低下的性能可歸因于此量化未將殘差樣本之間的相關考慮在內的事實。更進一步地,可聲明的是,時域殘差信號的最優(yōu)量化等于以每幀5個和10個比特的逐對優(yōu)化,因為在這些比特率下,存在僅1或2個脈沖,由此這些方法恰好是相同的。正如所預期的,對于每幀15個比特,最優(yōu)方法稍微優(yōu)于逐對優(yōu)化。

在每幀10個比特或以上處,范德蒙域中的量化優(yōu)于時域量化且特征值域為優(yōu)于范德蒙域的一個步驟。在每幀5個比特處,算術編碼器的性能更有可能迅速地降低,因為已知對于非常稀疏的信號它是次優(yōu)的。

還觀察到,在每幀80個比特以上,逐對方法開始偏離逐對方法。非正式實驗顯示,此趨勢在更高比特率處增大,以使得最終FFT和逐對方法達到遠低于特征值和范德蒙方法的類似信噪比。與此相反,特征值和范德蒙值繼續(xù)為比特率的大約線性函數(shù)。特征值方法始終近似優(yōu)于范德蒙方法0.36dB。假設此差值的至少部分由算術編碼器中實部和復部的隔離解釋。為了最優(yōu)性能,實部和復部應被聯(lián)合地編碼。

圖3b顯示用于示出不同算法的復雜度的估計的以每比特率的每個方法的運行時間的測量??煽闯觯诘捅忍芈侍?,最優(yōu)時域方法的復雜度(參看Opt)已激增。時域殘差的逐對優(yōu)化(參看Pair)反而作為比特率的函數(shù)線性地增大。請注意,現(xiàn)有技術水平的方法限制逐對方法的復雜度,以使得該復雜度對于高比特率變成常數(shù),雖然在此種限制下仍無法達到圖3a示出的實驗的有競爭性的信噪比結果。進一步地,兩種去相關方法(參看Eig和Vand)以及FFT方法(參看FFT)對全體比特率近似地為恒定的。范德蒙變換在以上實施中具有比特征值分解方法高大體50%的復雜度,但對于此的原因可由MATLAB提供的特征值分解的高度優(yōu)化版本的使用來解釋,然而,范德蒙因子分解并非最優(yōu)實施。然而,重要地,在每幀100個比特的比特率處,逐對優(yōu)化的ACELP的復雜度分別相當于基于范德蒙算法的大體30倍和50倍。僅FFT快于特征值分解方法,然而由于FFT的信噪比是低下的,它并非可行的選項。

總之,以上所述的方法具有兩個顯著的益處。首先,通過在感知域中應用量化,感知信噪比被改進。其次,由于殘差信號為去相關的(關于目標函數(shù)),可直接地應用量化而無需高度復雜的合成分析環(huán)。由此得出結論,所提議的方法的計算復雜度關于比特率是幾乎不變的,然而傳統(tǒng)方法隨著增大比特率而變得愈加復雜。

以上提出的方法完全不可利用傳統(tǒng)語音和音頻編碼方法操作。具體地,目標函數(shù)的去相關可被應用于諸如MPEG USAC或AMR-WB+的編解碼器的ACELP模式,而不限于編解碼器中存在的其他手段。其中應用核心帶寬或帶寬擴展方法的方式將保持相同,且無需改變ACELP中的長期預測、共振峰增強、低音后置濾波等的方式以及實施此種不同編碼模式(如ACELP和TCX)以及在這些模式之間切換的方式將不會受到目標函數(shù)的去相關的影響。

另一方面,明顯的是,可輕松地重新用公式表示使用相同目標函數(shù)(參看公式(1))的所有手段(即,至少所有的ACELP實施)以利用去相關。因此,根據(jù)又一實施例,例如,可應用對長期預測貢獻的去相關,且因此可使用去相關的信號計算增益因子。

此外,由于所提出的變換域為頻域表示,根據(jù)其他實施例,可將頻域語音和音頻編解碼器的典型方法應用至此新域。根據(jù)特定實施例,在頻譜線的量化中,可應用死區(qū)以增大效率。根據(jù)另一實施例,可應用噪聲填充以避免頻譜缺陷。

盡管已經(jīng)使用線性預測器在編碼器的上下文中論述編碼的以上實施例(參看圖1a和圖1b),應當注意的是,預測器還可用于包含長期預測器以確定描述音頻信號AS的基頻的長期預測系數(shù)并基于由長期預測系數(shù)定義的濾波函數(shù)對音頻信號AS進行濾波,以及輸出殘差信號x用于進一步處理。根據(jù)又一實施例,預測器可為線性預測器和長期預測器的組合。

清楚的是,可輕松地將所提議的變換應用至語音和音頻處理中的其他任務,如語音增強。首先,基于子空間的方法基于信號的特征值分解或奇異值分解。由于所提出的方法基于類似分解,基于子空間分析的語音增強方法可適于根據(jù)又一實施例所提議的域。與傳統(tǒng)子空間方法的不同在于,基于線性預測和殘差域中的加窗的信號模型在何時被應用,如被應用于ACELP中。與此相反,傳統(tǒng)子空間方法應用隨時間固定(非適應性)的重疊窗口。

其次,基于范德蒙去相關的去相關提供類似于由離散傅立葉、余弦或其他類似變換所提供的頻域。因此也可將常常在傅立葉、余弦或類似變換域中進行的任何語音處理算法以最小的修改應用于以上所述方法的變換域中。因此,可應用在變換域中使用頻譜減法的語音增強,即這意味著,根據(jù)其他實施例,所提議的變換可用于語音或音頻增強,例如,利用頻譜減法、子空間分析的方法或它們的衍生或變型。此處,益處在于,此方法使用與ACELP相同的加窗,以便語音增強算法可緊緊地集成于語音編解碼器中。更進一步地,ACELP的窗口具有比用于傳統(tǒng)子空間分析中的那些窗口低的算法延遲。因而,加窗因此基于更高性能的信號模型。

參考用于變換器14中(即步驟140內)的等式(5),應注意的是,它們的產(chǎn)物也可是不同的,例如,以y=DVx的形狀。

根據(jù)又一實施例,編碼器10可包括位于輸出處的用于將兩個數(shù)據(jù)流DSLPC/DSDV和封包至共同封包DS的封包器。反之亦然,解碼器20可包括用于將數(shù)據(jù)流DS分成兩個包DSLPC/DSDV和的解封包器。

盡管已在裝置的上下文中描述一些方面,顯然的是,這些方面也表示對應方法的描述,其中區(qū)塊或裝置對應于方法步驟或方法步驟的特征。類似地,在方法步驟的上下文中所描述的方面也表示對應裝置的對應區(qū)塊或項目或特征的描述。方法步驟中的一些或所有可由(或使用)像諸如微處理器、可編程計算機或電子電路的硬件裝置執(zhí)行。在一些實施例中,最重要方法步驟的某個或某些可由此裝置執(zhí)行。

本發(fā)明的經(jīng)編碼的信號可儲存在數(shù)字存儲介質上或可在傳輸介質上(例如無線傳輸介質或有線傳輸介質(例如因特網(wǎng)))上傳輸。

取決于特定的實施要求,本發(fā)明的實施例可以以硬件或軟件實施??墒褂镁哂写鎯τ谄渖系碾娮涌勺x控制信號的數(shù)字存儲介質,例如軟性磁盤、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或閃存,執(zhí)行實施方案,這些電子可讀控制信號與可編程計算機系統(tǒng)協(xié)作(或能夠協(xié)作)以使得執(zhí)行各個方法。因此,數(shù)字存儲介質可為計算機可讀的。

根據(jù)本發(fā)明的一些實施例包括具有電子可讀控制信號的數(shù)據(jù)載體,這些電子可讀控制信號能夠與可編程計算機系統(tǒng)協(xié)作,使得執(zhí)行本文中所描述的方法中的一個。

通常,本發(fā)明的實施例可被實施為具有程序代碼的計算機程序產(chǎn)品,當計算機程序產(chǎn)品運行于計算機上時,程序代碼操作性地用于執(zhí)行這些方法中的一個。程序代碼可(例如)儲存于機器可讀載體上。

其他實施例包括儲存于機器可讀載體上的用于執(zhí)行本文中所描述的方法中的一個的計算機程序。

換言之,因此,本發(fā)明方法的實施例為具有程序代碼的計算機程序,當計算機程序運行于計算機上時,該程序代碼用于執(zhí)行本文中所描述的方法中的一個。

因此,本發(fā)明方法的另一實施例為包括記錄于其上的,用于執(zhí)行本文中所描述的方法中的一個的計算機程序的數(shù)據(jù)載體(或數(shù)字存儲介質,或計算機可讀介質)。數(shù)據(jù)載體、數(shù)字存儲介質或記錄的介質通常為有形的和/或非暫時性的。

因此,本發(fā)明方法的另一實施例為表示用于執(zhí)行本文中所描述的方法中的一個的計算機程序的數(shù)據(jù)流或信號序列。數(shù)據(jù)流或信號序列可例如用于經(jīng)由數(shù)據(jù)通信連接(例如,經(jīng)由因特網(wǎng))而被傳送。

另一實施例包括用于或適于執(zhí)行本文中所描述的方法中的一個的處理構件,例如,計算機或可編程邏輯器件。

另一實施例包括安裝有用于執(zhí)行本文中所描述的方法中的一個的計算機程序的計算機。

根據(jù)本發(fā)明的另一實施例包含用以將用于執(zhí)行本文中所描述的方法中的一個的計算機程序(例如電性或光學)傳輸?shù)浇邮掌鞯难b置或系統(tǒng)。例如,接收器可為計算機、移動裝置、存儲器裝置或類似。例如,此裝置或系統(tǒng)可包含用于將計算機程序傳輸至接收器的文件服務器。

在一些實施例中,可編程邏輯器件(例如,現(xiàn)場可編程門陣列)可用于執(zhí)行本文中所描述的方法的功能性中的一些或所有。在一些實施例中,現(xiàn)場可編程門陣列可與微處理器協(xié)作,以便執(zhí)行本文中所描述的方法中的一個。大體而言,優(yōu)選地由任何硬件裝置執(zhí)行這些方法。

以下將利用不同的措辭以及可助于闡明本發(fā)明背景的更多細節(jié)論述以上所述的教示。近來,范德蒙變換作為時頻變換被提出,不同于離散傅立葉變換,范德蒙變換還對信號進行去相關。盡管傅立葉提供的近似或漸近去相關在一些情況下是足夠的,其性能在利用短窗口的應用中是不足的。因此,在由于輸入信號隨時間迅速地改變而需要使用短分析窗口的語音和音頻處理應用中,范德蒙變換將是有用的。此種應用常用在具有有限計算能力的移動設備上,由此高效的計算具有卓越的重要性。

然而,范德蒙變換的實施變成相當大的工作量:它要求其性能對于復雜度和準確率已被優(yōu)化的先進數(shù)值計算工具。此貢獻提供解決包括性能評估的此任務的基準方案。索引詞-時頻變換、去相關、范德蒙矩陣、托普利茲矩陣、翹曲離散傅立葉變換。

離散傅立葉變換為數(shù)字信號處理中的最基本手段中的一種。它提供頻率分量形式的輸入信號的物理激勵再現(xiàn)。由于快速傅立葉變換(FFT)也以非常低的計算復雜度O(N log N)計算離散傅立葉變換,它已變成數(shù)字信號處理的最重要手段中的一種。

盡管有名的,離散傅立葉變換具有如此瑕疵:它未完全地對信號分量進行去相關(對于數(shù)值示例,參見部分4)。僅當變換長度收斂至無窮時,分量變成正交的。此近似去相關在許多應用中是足夠良好的。然而,對于利用諸如許多語音和音頻處理算法的相對小變換的應用,此近似的準確率限制算法的總體效率。例如,語音編碼標準AMR-WB利用長為N=64的窗口。實踐已證明,離散傅立葉變換的性能在此情況下是不足的,且因而大多數(shù)主流語音編解碼器使用時域編碼。

圖3c顯示范德蒙變換的特征,由51標記的粗線示出信號的(非翹曲)傅立葉頻譜,以及線52、53和54為利用輸入信號進行濾波的、三個選中頻率的帶通濾波器的響應。范德蒙因子分解大小為64。

自然地,存在提供輸入信號的去相關的大量變換,如卡洛南-洛伊(Karhunen-Loève)變換(KLT)。然而,KLT的分量為不具有像傅立葉變換一樣簡單的物理解釋的抽象實體。另一方面,物理激勵域允許物理激勵標準簡單明了地實施于處理方法中。因此期望提供物理解釋和去相關二者的變換。

近來,我們已提出具有兩種優(yōu)選特征的被稱為范德蒙變換的變換。它基于將埃爾米特托普利茲(HermitianToeplitz)矩陣分解為對角矩陣和范德蒙矩陣的乘積。此因子分解實際上也被稱作協(xié)方差矩陣的卡拉西奧多禮(Carathéodory)參數(shù)化,且類似于漢克爾(Hankel)矩陣的范德蒙因子分解。

對于正定的埃爾米特托普利茲矩陣的特定情況,范德蒙因子分解將與頻率-翹曲離散傅立葉變換相對應。換句話說,它是提供采樣于并非必須均勻分布的頻率處的信號分量的時頻變換。范德蒙變換因此提供兩種期望特性:去相關和物理解釋。

當已分析地展示范德蒙變換的存在和特性時,當前工作的目的在于,首先,收集用于范德蒙變換的現(xiàn)有實際算法并形成文檔。這些方法已在包括數(shù)值代數(shù)學、數(shù)值分析、系統(tǒng)識別、時頻分析和信號處理的非常不同的領域中顯現(xiàn),由此它們常難以被發(fā)現(xiàn)。此文件因此是提供用于結果的分析和論述的聯(lián)合平臺的方法的回顧。其次,我們提供作為基準的數(shù)值示例以用于不同方法的性能的進一步評估。

此部分提供對范德蒙變換的簡要介紹。對于關于應用的更全面的誘因和論述,請參考。

范德蒙矩陣V由標量vk定義為:

如果標量vk為不同的(對于)且它的逆具有顯式公式,它是滿秩的。

對稱的托普利茲矩陣T由標量Tk定義為:

如果T為正定的,則它可被因子分解為:

T=V*∧V, (3z)

其中,∧為具有實數(shù)和嚴格正條目λkk>0的對角矩陣,且指數(shù)級數(shù)V全部在單位圓vk=exp(iβk)上。此形式還被稱為托普利茲矩陣的卡拉西奧多禮參數(shù)化。

在此我們提出范德蒙變換的兩種使用:用作去相關變換或用作卷積矩陣的替代。首先考慮具有自相關矩陣E[xx*]=Rx的信號x。由于自相關矩陣是正定、對稱的且是托普利茲,我們可將它因子分解為R=V*∧V。由此得出結論,如果我們應用變換

yd=V-*x (4z)

其中V-*是V的逆埃爾米特,則yd的自相關矩陣為

變換的信號yd因此為不相關的。逆變換為

x=V*yd. (6z)

作為啟發(fā)式描述,我們可說,正變換V-*在其第k行包含濾波器,該濾波器的帶通處于頻率-βk處且用于x的阻帶輸出具有低能量。具體地,輸出的頻譜形狀接近于在單位圓上具有單極的AR濾波器的頻譜形狀。請注意,由于此濾波器組為信號自適應的,此處我們考慮濾波器的輸出而非基本函數(shù)的頻率響應。

反變換V*反而在其列中具有指數(shù)級數(shù),以使得x為指數(shù)級數(shù)的加權和。換句話說,變換為翹曲時頻變換。圖3c展示輸入信號x的離散(非翹曲)傅立葉頻譜以及V-*的選中行的頻率響應。

用于卷積域中的信號的評估的范德蒙變換可構造如下。令C為卷積矩陣且x為輸入信號。考慮我們的目標為評估卷積信號yc=Cx的情況。例如,此評估在利用ACELP的語音編解碼器中顯現(xiàn)于在感知域中評估量化誤差能量之處以及通過濾波描述至感知域的映射之處。

yc的能量為:

||yc||2=||Cx||2=x*C*Cx=x*Rcx=x*V*ΛVx=||Λ1/2Vx||2 (7z)

yc的能量因此等于變換且縮放的信號的能量:

yv=Λ1/2Vx (8z)

因此,我們能等效地評估卷積或變換域中的信號能量||yc||2=||yv||2。逆變換明顯地為

x=V-1-1/2yv. (9z)

正變換V在其行中具有指數(shù)級數(shù),由此它是翹曲傅立葉變換。它的逆V-1在其列中具有在βk處具有帶通的濾波器。以此形式,濾波器組的頻率響應等于離散傅立葉變換。它是利用常被看作為混疊分量以能夠實現(xiàn)完美的重建的僅有的逆變換。

為了使用范德蒙變換,我們需要用于確定以及應用變換的高效算法。在此部分中,我們將論述可用的算法。讓我們以變換的應用開始,因為它是更簡單明了的任務。

V和V的乘積是簡單明了的,且可以復雜度O(N2)實施。為了減小存儲需求,我們在此顯示對于h>1無需明確地評估指數(shù)的算法。即,如果y=Vx且x的元素為ξk,則可利用循環(huán)確定y的元素ηk

此處,Th,k為臨時標量,僅需要存儲其當前值。對于N個分量,總體循環(huán)具有N個步驟,由此總體復雜度為O(N2)且存儲需求為常量。對于y=V*x可輕松地寫出類似算法。

逆范德蒙矩陣V-1和V-*的乘積是稍微復雜的任務,但幸運的是,已可從文獻中得到相對高效的方法。算法易于實施且對于x=V-1y和x=V-*y,復雜度為O(N2)且存儲需求為線性的O(N)。然而,算法在每個步驟包括除法,這在許多架構中具有高常量代價。

盡管用于乘以逆的以上算法在分析的意義中是精確的,實際的實施對于大數(shù)N為數(shù)值上不穩(wěn)定的。在我們的經(jīng)驗中,利用大小上達N~64的矩陣的計算有時是可能的,但除此之外,數(shù)值不穩(wěn)定性致使這些算法就其本身而言是無用的。實際的方案為根Vk的Leja-排序,其相當于利用部分主元消元的高斯消元法。Leja-排序的主要思想為以根Vk距前面的0...(k-1)的根的距離被最大化的方式對根進行重排序。通過此重排序,顯現(xiàn)于算法中的分母被最大化且中間變量的值被最小化,由此截斷誤差的貢獻也被最小化。Leja-排序的實施是簡單的且可以以復雜度O(N2)和存儲需求O(N)實現(xiàn)。

然后,最終障礙是獲得因子分解,即,根Vk以及需要時的對角線值λkk。就我們所知,可通過求解

Ra=[11...1]T, (11z)

獲得根。其中,a具有元素αk。然后v0=1和剩余根V1...VN為多項式的根。我們可輕松地顯示,這相當于求解漢克爾系統(tǒng)

其中,然后根Vk為的根。

由于原始托普利茲系統(tǒng)的因子分解等式(11z)與等式(12z)等效,我們可使用用于漢克爾矩陣的因子分解的快速算法。此算法返回三對角矩陣,其特征值與的根相對應。然后可以通過應用LR算法以O(N2)或通過標準的非對稱QR算法以O(N2)獲得特征值。此種方式獲得的根為近似值,由此它們可能會稍微脫離單位圓。然后,將根的絕對值歸一化至統(tǒng)一單位并利用牛頓方法的2或3次迭代進行精煉是有用的。完整的過程具有O(N2)的計算代價。

因子分解中的最后步驟為獲得對角線值∧。請觀察,

Re=V*∧Ve=V*λ (13z)

其中,e=[10...0]T且λ為包含∧的對角線值的向量。換句話說,通過計算

λ=V-*(Re), (14z)

我們獲得對角線值λkk。利用以上論述的方法可計算此逆,由此以復雜度O(N2)獲得對角線值。

總之,矩陣R的因子分解所需的步驟為:

1、使用萊文森一德賓(Levinson-Durbin)或其他經(jīng)典方法,求解等式(11z)。

2、通過擴展自相關序列。

3、對序列Tk應用三對角化算法。

4、使用LR或對稱的QR算法,求解特征值vk。

5、通過將vk縮放至統(tǒng)一單位以及牛頓方法的數(shù)次迭代,對根的位置進行精煉。

6、使用等式(14z)確定對角線值λkk。

讓我們以展示所使用的概念的數(shù)值示例開始。此處,矩陣C為與簡單濾波器1+z-1相對應的卷積矩陣,矩陣R為它的自相關,矩陣V為利用部分3中的算法獲得的對應范德蒙矩陣,矩陣F為離散傅立葉變換矩陣且矩陣∧V和∧F展示兩個變換的對角化準確率。因此,我們可定義

由此我們可利用

評估對角化。

此處,我們可看到,利用范德蒙變換,我們獲得完美地對角化的矩陣∧V。離散傅立葉變換的性能遠非最優(yōu)的,因為對角線外的值明顯地是非零。作為性能的度量,我們可計算對角線外的值的絕對和與對角線上的值的絕對和之比,其對于范德蒙因子分解為0,而對于傅立葉變換為0.444。

然后,我們可進行對部分3中描述的實施的評估。在提供性能基準的目的下,我們已在MATLAB中實施每個算法,基于該性能基準,未來的工作可進行對比并找到最終的性能瓶頸。我們將考慮關于復雜度和準確率的性能。

為了確定因子分解的性能,我們將范德蒙因子分解與離散傅立葉和卡洛南-洛伊變換進行對比,利用特征值分解應用后者。我們已使用兩種方式應用范德蒙因子分解,第一,在此論文中描述的算法(V1)以及第二,在使用由MATLAB提供的內置尋根函數(shù)(V2)中描述的方法。由于此MATLAB函數(shù)為經(jīng)細致調整的一般算法,我們預期將以比我們?yōu)樘囟康亩鴦?chuàng)建的算法高的復雜度獲得準確的結果。

作為用于我們的實驗的數(shù)據(jù),我們使用以12.8kHz的采樣率用于MPEG USAC標準的評估中的語音、音頻和混合音樣本的集合。利用漢明窗口,對音頻樣本加窗至期望長度,并計算它們的自相關。為了確保自相關矩陣為正定的,主對角線乘以(1+10-5)。

對于性能度量,我們使用關于歸一化運行時間的計算復雜度和關于由對角線外的元素的絕對和與對角線上的元素的絕對和之比度量的距對角矩陣有多近的準確率。結果被列出在表1和2中。

表1、關于歸一化運行時間的因子分解算法對于不同窗口長度N的復雜度

表2、關于的對角線外的值的絕對和與對角線上的值的絕對和之比的log10的因子分解算法對于不同窗口長度N的準確率

請注意,此處,對比算法之間的運行時間是不明智的,僅是作為幀大小的函數(shù)的復雜度的增大,因為內置MATLAB函數(shù)已以不同于我們自己算法的語言實施。我們可看到,所提議的算法V1的復雜度隨可比擬于KLT的比率增大,而應用MATLAB的尋根函數(shù)V2的算法增大更多。所提議的因子分解算法V1的準確率尚非最優(yōu)的。然而,由于MATLAB的尋根函數(shù)V2引致可比擬于KLT的準確率,我們得到結論,通過算法改進的改進是可能的。

第二個實驗是變換的應用以確定準確率和復雜度。首先,我們應用等式(4z)和(9z),其復雜度在表3中列出。此處,我們可看到,KLT的矩陣乘法以及MATLAB的矩陣系統(tǒng)的內置方案V2具有大體相同的復雜度增大比率,而用于等式(4z)和(9z)的所提議的方法具有更小的增大。自然地,F(xiàn)FT快于所有其他方法。

最后,為了獲得范德蒙方案的準確率,我們依次應用正變換和反變換。在表4中列出了原始向量和重構建向量之間的歐氏(Euclidean)距離。我們可觀察到,首先,正如所預期的,F(xiàn)FT和KLT算法為最準確的,因為它們基于正交變換。其次,我們可看到,所提議的算法V1的準確率稍微低于MATLAB的內置方案V2,但兩個算法均提供足夠的準確率。

我們已在回顧可用算法以及提供用于進一步開發(fā)的性能基準的目的下,提出使用范德蒙因子分解對時頻變換進行去相關的實施細節(jié)。而原則上可從先前工作得到算法,它結果是使得系統(tǒng)按需求運行。

表3、關于歸一化運行時間的范德蒙方案對于不同的窗口長度N的復雜度。此處,v1-*和V1-1預示利用各個所提議的算法的等式(4z)和(9z)的方案。

表4、如通過測量的正變換和反變換的準確率,其中x和為原始向量和重構建向量。

相當大的工作量。主要挑戰(zhàn)為數(shù)值準確率和計算復雜度。實驗證實,可得到以O(N2)復雜度的方法,盡管獲得低復雜度同時具有數(shù)值穩(wěn)定性是個挑戰(zhàn)。然而,由于一般MATLAB實施提供準確的方案,我們斷定利用實施的進一步調整,獲得高準確率是可能的。

總之,我們的實驗顯示,對于范德蒙方案,所提議的算法具有良好的準確率和足夠低的復雜度。對于因子分解,為特定目的而創(chuàng)建的因子分解的確以合理的復雜度給出比FFT更優(yōu)的去相關,而對于準確率,仍存在改進空間。MATLAB的內置實施給出令人滿意的準確率,這將我們引向如此結論:可實施準確的O(N2)算法。

上文所描述的實施例僅僅說明本發(fā)明的原理。應理解,對本文中所描述的配置及細節(jié)的修改及變型對本領域技術人員而言將是顯而易見。因此,僅意欲由待決專利的權利要求的范圍限制,而不由通過本文的實施例的描述及解釋而提出的特定細節(jié)限制。

參考文獻

[1]B.Bessette,R.Salami,R.Lefebvre,M.Jelinek,J.Rotola-Pukkila,J.Vainio,H.Mikkola,and K.“The adaptive multirate wideband speech codec(AMR-WB),″Speech and Audio Processing,IEEE Transactions on,vol.10,no.8,pp.620-636,2002.

[2]ITU-T G.718,“Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from8-32kbit/s,″2008.

[3]M.Neuendorf,P.Gournay,M.Multrus,J.Lecomte,B.Bessette,R.Geiger,S.Bayer,G.Fuchs,J.Hilpert,N.Rettelbach,R.Salami,G.Schuller,R.Lefebvre,and B.Grill,“Unied speech and audio coding scheme forhigh quality at low bitrates,″in Acoustics,Speech and Signal Processing.ICASSP 2009.IEEE Int Conf,2009,pp.1-4,

[4]J.-P.Adoul,P.Mabilleau,M.Delprat,and S.Morissette,“Fast CELP coding based on algebraic codes,″in Acoustics,Speech,and Signal Processing,IEEE International Conference on ICASSP′87.,vol.12.IEEE,1987,pp.1957-1960.

[5]C.Laamme,J.Adoul,H.Su,and S.Morissette,“On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes,″in Acoustics,Speech,and Signal Processing,1990.ICASSP-90.,1990International Conference on.IEEE,1990,pp.177-180.

[6]F.-K.Chen and J.-F.Yang,“Maximum-take-precedence ACELP:a low complexity search method,″in Acoustics,Speech,and Signal Processing,2001.Proceedings.(ICASSP′01).2001 IEEE International Conference on,vol.2.IEEE,2001,pp.693-696.

[7]K.J.Byun,H.B.Jung,M.Hahn,and K.S.Kim,“A fast ACELP codebook search method,″in Signal Processing,2002 6th International Conference on,vol.1.IEEE,2002,pp.422-425.[8]N.K.Ha,\A fast search method of algebraic codebook by reordering search sequence,″in Acoustics,Speech,and Signal Processing,1999.Proceedings.,1999 IEEE International Conference on,vol.1.IEEE,1999,pp.21-24.

[9]M.A.Ramirez and M.Gerken,“Efficient algebraic multipulse search,″in Telecommunications Symposium,1998.ITS′98 Proceedings.SBT/IEEE International.IEEE,1998,pp.231-236.

[10]T.“Computationally efficient objective function for algebraic codebook optimization in ACELP,″in Interspeech 2013,August 2013.

[11]|“Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,″IEEE Trans.Signal Process.,vol.61,no.24,pp.6257-6263,2013.

[12]G.H.Golub and C.F.van Loan,Matrix Computations,3rd ed.John Hopkins University Press,1996.

[13]T.J.Fischer,and D.Boley,“Implementation and evaluation of the Vandermonde transform,″in submitted to EUSIPCO 2014(22nd European Signal Processing Conference 2014)(EUSIPCO 2014),Lisbon,Portugal,Sep.2014.

[14]T.G.Fuchs,M.Multrus,and M.Dietz,“Linear prediction based audio coding using improved probability distribution estimation,″US Provisional Patent US 61/665 485,6,2013.

[15]K.Hermus,P.Wambacq et al.,\A review of signal subspace speech enhancement and its application to noise robust speech recognition,″EURASIP Journal on Applied Signal Processing,vol.2007,no.1,pp.195-195,2007.

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1