午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法

文檔序號(hào):2830942閱讀:366來(lái)源:國(guó)知局
專利名稱:語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及自動(dòng)字幕生成系統(tǒng)中的語(yǔ)音檢測(cè)技術(shù),具體涉及一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法。

背景技術(shù)
語(yǔ)音端點(diǎn)檢測(cè)技術(shù)是語(yǔ)音技術(shù)研究的一個(gè)新的領(lǐng)域,其應(yīng)用于自動(dòng)字幕生成系統(tǒng)中。當(dāng)前的字幕制作方法首先需要準(zhǔn)備好字幕文稿,這種字幕文稿是指在制作電視節(jié)目之前,事先寫好的一個(gè)文本文件,記錄著節(jié)目的標(biāo)題、主持人要說(shuō)的話,以及被采訪人所講的話等內(nèi)容。在制作電視節(jié)目時(shí),編輯人員把音、視頻素材添加到非線性編輯軟件的故事板上,然后按照節(jié)目的主旨,對(duì)其進(jìn)行編輯。編輯操作一般包括對(duì)素材位置的修改,添加一些特技,添加字幕等等。添加字幕時(shí),一般是先在字幕文稿中選擇多段文字(每一段就是一句話),然后以這些文字生成一個(gè)新的字幕文件,將這個(gè)文件拖上非線性編輯軟件的軌道,此時(shí)字幕中的每一句話就會(huì)按順序播出,但是往往會(huì)出現(xiàn)“聲畫不同步”的現(xiàn)象,即字幕出現(xiàn)的時(shí)刻和音頻文件中播出的聲音對(duì)不上。這時(shí)就需要編輯人員一邊聽聲音,一邊一句句地修改字幕的入點(diǎn)和出點(diǎn)的值。這就非常耗費(fèi)人力和時(shí)間,影響唱詞文件生成的質(zhì)量和效率。
從復(fù)雜背景噪聲中找出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn),即語(yǔ)音端點(diǎn)檢測(cè)技術(shù),一直是語(yǔ)音信號(hào)處理中的基本問(wèn)題。由于語(yǔ)音端點(diǎn)檢測(cè)的重要性,人們已經(jīng)提出了很多種語(yǔ)音端點(diǎn)檢測(cè)方法。這些方法大致可以分為基于模型的方法和基于門限的方法兩類。
基于門限的語(yǔ)音端點(diǎn)檢測(cè)方法是根據(jù)語(yǔ)音的特點(diǎn),選擇合適的特征參數(shù),然后將該特征參數(shù)與預(yù)先設(shè)定的門限值進(jìn)行比較,或者是先對(duì)特征參數(shù)進(jìn)行一系列的后期處理然后再與門限進(jìn)行比較。
現(xiàn)有的基于門限的端點(diǎn)檢測(cè)參數(shù)主要有 1)能量以聲音的強(qiáng)度作為判斷參數(shù)。這種方法在高信噪比的情況下會(huì)有很好的效果。但是,在信噪比低的情況下,如在汽車引擎聲、關(guān)門聲等噪聲的干擾下,這種方法的準(zhǔn)確率很低。
2)頻率采用頻率域的特征作為判斷依據(jù)。這種方法可以準(zhǔn)確的區(qū)分語(yǔ)音和汽車引擎、關(guān)門聲等噪聲,但是,對(duì)于語(yǔ)音和樂(lè)音的區(qū)別效果較差。
無(wú)論采用哪種音頻參數(shù),傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)方法在特定的噪聲環(huán)境下都存在很大的不足。比如,基于能量的方法在低SNR的環(huán)境中表現(xiàn)不好;基于信息熵的算法在音樂(lè)背景下則會(huì)失效。
因此,有必要引入一種音頻參數(shù),能夠在多種噪聲條件下保證語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性。


發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)自動(dòng)字幕生成系統(tǒng)的特點(diǎn)以及傳統(tǒng)語(yǔ)音端點(diǎn)檢測(cè)方法在語(yǔ)音特征參數(shù)選取上的缺陷,提供一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,該方法將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長(zhǎng)處,同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn),從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
本發(fā)明的技術(shù)方案如下一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,包括如下步驟 (1)將音頻采樣序列分成固定長(zhǎng)度的幀,并形成一個(gè)幀序列; (2)針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù); (3)根據(jù)上述音頻特征參數(shù)按如下公式計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值,并形成一個(gè)短時(shí)能頻值序列, EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i幀的短時(shí)能頻值;Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵;Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。
進(jìn)一步,如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,在步驟(1)中,將音頻采樣序列分成10ms長(zhǎng)度的幀。
進(jìn)一步,如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,在步驟(2)中,所提取的第i幀的短時(shí)能量為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個(gè)采樣的取樣值。
進(jìn)一步,如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,在步驟(2)中,所提取的第i幀的短時(shí)過(guò)零率為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個(gè)采樣的取樣值;sgn()為符號(hào)函數(shù),定義為 進(jìn)一步,如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,在步驟(2)中,提取短時(shí)信息熵的步驟如下 (a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換 其中,Sn表示第n個(gè)音頻采樣,N為總采樣數(shù); (b)計(jì)算每一頻率的出現(xiàn)概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度, 所規(guī)定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 (c)計(jì)算語(yǔ)音信息熵 其中,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時(shí)信息熵。
更進(jìn)一步,如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,在步驟(3)中,對(duì)每一幀的短時(shí)能頻值進(jìn)行平滑處理,處理中對(duì)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)分別進(jìn)行平滑,通常采用5幀平滑的方式,對(duì)于某一幀F(xiàn)n,設(shè)它的某個(gè)音頻特征參數(shù)是Xn,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2,則平滑后得到的音頻特征參數(shù)Xn-smoothed為 對(duì)于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 本發(fā)明的有益效果如下本發(fā)明所提供的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法綜合考慮了語(yǔ)音的時(shí)域和頻域特征,將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長(zhǎng)處,同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn)。語(yǔ)音端點(diǎn)檢測(cè)所針對(duì)的一般是一段比較長(zhǎng)的語(yǔ)音段,在此期間背景噪聲隨時(shí)有可能發(fā)生各種變化。當(dāng)檢測(cè)到背景噪聲的變化時(shí),可以相應(yīng)的更新Eb、Zb和Hb三個(gè)參數(shù)的值,然后重新計(jì)算那些受此噪聲影響的幀的短時(shí)能頻值,從而使短時(shí)能頻值能夠?qū)Ρ尘霸肼暤淖兓龀龇磻?yīng),從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。



圖1為短時(shí)能頻值的提取流程圖。
圖2為短時(shí)能頻值的波形圖。
圖3為短時(shí)能頻值的平滑處理流程圖。
圖4為短時(shí)能頻值平滑處理前后的波形對(duì)比圖。

具體實(shí)施例方式 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
(一)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)的提取 1.短時(shí)能量 能量是最經(jīng)常使用的音頻特征參數(shù)之一,是對(duì)語(yǔ)音信號(hào)最直觀的表示。語(yǔ)音信號(hào)的能量分析基于語(yǔ)音信號(hào)幅度隨時(shí)間有相當(dāng)?shù)淖兓@一現(xiàn)象。能量可以用于區(qū)別發(fā)音的清音段和濁音段,能量值較大的對(duì)應(yīng)于清音段,能量值較小的對(duì)應(yīng)于濁音段。對(duì)于高信噪比的信號(hào),可以用能量來(lái)判斷有無(wú)語(yǔ)音。無(wú)語(yǔ)音信號(hào)的噪聲能量較小,而有語(yǔ)音信號(hào)時(shí)能量會(huì)顯著增大,由此可以粗略區(qū)分語(yǔ)音信號(hào)的起始點(diǎn)和中止點(diǎn)。另外,能量還可以用來(lái)區(qū)分聲母和韻母的分界、以及連字的分界等。
在本發(fā)明中,采用“短時(shí)能量”作為主要的特征參數(shù)之一。所謂短時(shí)能量,就是先對(duì)音頻信號(hào)進(jìn)行分幀處理,然后對(duì)每一幀求其能量,它被定義為一幀中所有采樣值平方的和。第i幀的短時(shí)能量定義為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個(gè)采樣的取樣值。
2.短時(shí)過(guò)零率 過(guò)零率是聲音信號(hào)處理過(guò)程中一個(gè)常用的音頻特征參數(shù)。當(dāng)離散語(yǔ)音信號(hào)的時(shí)域波形通過(guò)時(shí)間橫軸時(shí),相鄰時(shí)刻的采樣值如果具有不同的符號(hào),稱為“過(guò)零”。單位時(shí)間的過(guò)零次數(shù)稱為“過(guò)零率”,即單位時(shí)間內(nèi)音頻采樣值符號(hào)變換的次數(shù)。同上,在本發(fā)明中將單位時(shí)間限定為一幀,每一幀的過(guò)零率就是“短時(shí)過(guò)零率”。第i幀的短時(shí)過(guò)零率定義如下 其中,Sn表示第n個(gè)音頻采樣的值;sgn()為符號(hào)函數(shù),定義為 過(guò)零分析是語(yǔ)音的時(shí)域分析中最簡(jiǎn)單的一種分析。它可以區(qū)別語(yǔ)音的發(fā)音是清音還是濁音。由于清音語(yǔ)音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過(guò)零率較高;而濁音語(yǔ)音具有高頻跌落的頻譜,因此濁音的過(guò)零率低。利用短時(shí)過(guò)零率還可以從背景噪聲中找出語(yǔ)音信號(hào)。在孤立詞的語(yǔ)音識(shí)別中,必須要在一串連續(xù)的語(yǔ)音信號(hào)中進(jìn)行適當(dāng)分割,用以確定每個(gè)單詞語(yǔ)音的信號(hào),也即找出每個(gè)單詞的開始和終止位置。用平均過(guò)零率來(lái)確定單詞的起始點(diǎn)時(shí),判斷依據(jù)是語(yǔ)音開始點(diǎn)以前的過(guò)零率低,而開始點(diǎn)以后的過(guò)零率有明顯的數(shù)值。在有背景噪聲的情況下,一般背景噪聲的平均過(guò)零率較低,而單詞起始段的平均過(guò)零率急劇增大,由此可判定此單詞的起始點(diǎn)。
3.短時(shí)信息熵 語(yǔ)音的感知過(guò)程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此,對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)語(yǔ)音信號(hào)和處理語(yǔ)音信號(hào)的重要方法。語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),但是其非平穩(wěn)性是由發(fā)音器官的物理運(yùn)動(dòng)過(guò)程而產(chǎn)生的,由此可以假定其頻域也是短時(shí)平穩(wěn)的。
信息熵是頻域的重要音頻參數(shù),它反應(yīng)了語(yǔ)音信號(hào)所傳達(dá)的信息量的大小。信息熵在語(yǔ)音編解碼中經(jīng)常被使用,J.L.Shen首次將它應(yīng)用在語(yǔ)音端點(diǎn)檢測(cè)技術(shù)中。本發(fā)明同樣對(duì)每一幀都計(jì)算其信息熵,稱為短時(shí)信息熵,計(jì)算方法如下 (a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換 由于此處的傅立葉變換都是對(duì)某一幀進(jìn)行的,因此相當(dāng)于對(duì)傅立葉變換加上了一個(gè)窗口函數(shù)w(n-k)。k的取值取決于要對(duì)哪一幀進(jìn)行短時(shí)傅立葉變換。
(b)計(jì)算每一頻率的出現(xiàn)概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度,此處取480。
所規(guī)定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 第一個(gè)約束公式用來(lái)保證語(yǔ)音信號(hào)的頻率范圍。因?yàn)槿说陌l(fā)音頻率基本集中在250Hz到3750Hz之間,所以我們把頻率限定在這個(gè)范圍之內(nèi)。第二個(gè)約束公式用來(lái)濾除在某些頻率上持續(xù)發(fā)生的噪聲。
(c)計(jì)算語(yǔ)音信息熵 其中,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時(shí)信息熵。
試驗(yàn)證明,語(yǔ)音信號(hào)的信息熵和非語(yǔ)音信號(hào)的信息熵之間存在很大的差別,由此可以用來(lái)尋找語(yǔ)音端點(diǎn)的位置。在很多情況下,尤其是當(dāng)背景噪聲主要是機(jī)械噪聲時(shí),使用信息熵作為特征參數(shù)比單純使用能量更加可靠。
但是,在連續(xù)不斷的背景噪聲或者音樂(lè)背景下,使用信息熵來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)會(huì)非常不可靠。因?yàn)橥Z(yǔ)音一樣,連續(xù)的背景噪聲或者背景音樂(lè)也含有很多信息。相對(duì)而言,在這種情況下使用能量作為特征參數(shù)反而會(huì)取得較好的效果,因?yàn)檎Z(yǔ)音與背景噪聲的疊加總會(huì)大過(guò)單純的背景噪聲。
(二)短時(shí)能頻值的確定 在上述三個(gè)音頻特征參數(shù)的基礎(chǔ)上,本發(fā)明提出了一個(gè)結(jié)合時(shí)域和頻域的語(yǔ)音特征參數(shù),稱作短時(shí)能頻值,記做EZE-feature。
1.短時(shí)能頻值的定義 第i幀的短時(shí)能頻值EZE-featurei的定義如下 EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i幀的短時(shí)能頻值;Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵;而Eb、Zb和Hb則分別表示了當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。典型的短時(shí)能頻值波形如圖2所示,截取自一段新聞的短時(shí)能頻值波形。
短時(shí)能頻值同時(shí)結(jié)合了時(shí)域和頻域的語(yǔ)音特征。短時(shí)能量和短時(shí)過(guò)零率屬于時(shí)域的音頻特征參數(shù),短時(shí)信息熵則屬于頻域的音頻特征參數(shù)。將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長(zhǎng)處,同時(shí)又可以在一定程度上規(guī)避它們各自的缺點(diǎn),從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
鑒于背景噪聲和背景音樂(lè)的這種不確定性,我們不可能一直使用音頻信號(hào)的前幾幀作為背景噪聲。而是應(yīng)該在端點(diǎn)檢測(cè)過(guò)程中,根據(jù)檢測(cè)出的語(yǔ)音情況,自動(dòng)選取新的音頻幀作為背景噪聲進(jìn)行處理。
首先,默認(rèn)音頻文件最初的10ms為環(huán)境音,將這10ms的音頻信號(hào)的短時(shí)能量平均值、短時(shí)過(guò)零率平均值和短時(shí)信息熵平均值作為最初的背景噪聲的短時(shí)能量Eb、短時(shí)過(guò)零率Zb和短時(shí)信息熵Hb。自適應(yīng)的語(yǔ)音端點(diǎn)檢測(cè)算法對(duì)于噪聲采取了一種反饋機(jī)制當(dāng)發(fā)現(xiàn)背景噪聲可能已經(jīng)發(fā)生變化時(shí),算法要回退到噪聲發(fā)生變化之前的語(yǔ)音幀,重新進(jìn)行檢測(cè)。其過(guò)程如下所述 1)找到了某個(gè)語(yǔ)音起點(diǎn),記為第Fh幀,當(dāng)Fh與上一個(gè)語(yǔ)音終點(diǎn)Ft幀相距300ms以上時(shí),則進(jìn)行環(huán)境噪聲的提取。
2)從第Ft幀開始,取接下來(lái)的10幀當(dāng)作背景噪聲,重新計(jì)算Eb、Zb和Hb的值。計(jì)算方法為取算術(shù)平均,以Eb為例 3)從第Ft+1幀開始,使用更新后的Eb、Zb和Hb,重新計(jì)算每一幀的短時(shí)能頻值,得到新的短時(shí)能頻值序列。
4)從第Ft+1幀開始,使用新的短時(shí)能頻值序列重新執(zhí)行端點(diǎn)檢測(cè)過(guò)程。
2.短時(shí)能頻值的提取過(guò)程 在語(yǔ)音端點(diǎn)檢測(cè)過(guò)程中,我們需要求得每一幀的短時(shí)能頻值。求第i幀的短時(shí)能頻值,就要用到第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。其提取過(guò)程如圖1所示。
步驟1首先對(duì)音頻信號(hào)序列進(jìn)行分幀處理,得到一個(gè)音頻幀序列。在本發(fā)明中將10ms規(guī)定為一幀。例如,如果音頻文件的采樣率是48k/s,那么每幀就應(yīng)該包含480個(gè)采樣。
步驟2從步驟1中得到的幀序列里的第一幀開始直到最后,計(jì)算每一幀的三個(gè)音頻特征參數(shù),得到短時(shí)能量序列、短時(shí)過(guò)零率序列和短時(shí)信息熵序列。
步驟3從幀序列里的第一幀開始直到最后,應(yīng)用步驟2里求得的三個(gè)音頻特征參數(shù)序列,并應(yīng)用每一幀所對(duì)應(yīng)的背景噪聲的相應(yīng)音頻特征參數(shù),按照短時(shí)能頻值的定義公式進(jìn)行計(jì)算。重復(fù)此過(guò)程直到所有幀的短時(shí)能頻值都計(jì)算完成。最后得到一個(gè)與幀序列相對(duì)應(yīng)的短時(shí)能頻值序列。
3.短時(shí)能頻值的平滑處理 人的語(yǔ)音在字(詞)之間具有一定的相關(guān)性,字(詞)之間不會(huì)產(chǎn)生非常突兀的變化。因此,可以對(duì)上述三個(gè)語(yǔ)音特征參數(shù)進(jìn)行平滑處理。一方面,由于噪聲的影響,音頻信號(hào)中可能出現(xiàn)突兀的毛刺現(xiàn)象,主要表現(xiàn)為在一系列平緩的音頻波形中突然出現(xiàn)劇烈震動(dòng)的單個(gè)波(正常情況為一系列的震動(dòng)波)。使用平滑處理可以有效地去除一些由噪聲引起的毛刺現(xiàn)象。另一方面,也對(duì)語(yǔ)音參數(shù)的有效性做出一定的優(yōu)化。語(yǔ)音信號(hào)是連續(xù)的,語(yǔ)音前后之間具有一定的相關(guān)性,將語(yǔ)音信號(hào)分割成一系列間斷幀的處理方式破壞了這種相關(guān)性,而平滑處理則可以在一定程度上彌補(bǔ)由于分幀處理帶來(lái)的影響。
平滑處理可在時(shí)域上進(jìn)行,也可以在頻域上進(jìn)行。本發(fā)明對(duì)音頻信號(hào)主要采取時(shí)域平滑的處理方式。
因?yàn)楸景l(fā)明中需要用到3個(gè)音頻特征參數(shù)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵都是直接使用音頻信號(hào)的取樣值求得的,因此在進(jìn)行平滑處理時(shí)也要對(duì)3個(gè)特征參數(shù)分別進(jìn)行平滑。
對(duì)于某一幀F(xiàn)n進(jìn)行平滑處理,設(shè)它的某個(gè)音頻特征參數(shù)是Xn。采用5幀平滑的方式,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2。則平滑后得到的音頻特征參數(shù)Xn-smoothed為 整個(gè)平滑處理的過(guò)程如圖3所示。在進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)之前,我們需要對(duì)音頻信號(hào)中的每一幀都按照上述方法進(jìn)行平滑處理。
對(duì)于音頻信號(hào)中的開始兩幀以及最后兩幀,無(wú)法進(jìn)行5幀平滑。在音頻文件中,一般在開始的兩幀和最后的兩幀中很少有語(yǔ)音出現(xiàn),因此對(duì)這些邊界幀進(jìn)行異常處理并不會(huì)對(duì)語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確度產(chǎn)生大的影響。從而可以相應(yīng)的采取4幀或3幀進(jìn)行平滑處理。
對(duì)第一幀,我們可以同時(shí)使用第1、2、3幀來(lái)進(jìn)行3幀平滑;而對(duì)于第二幀,我們可以使用第1、2、3和4幀來(lái)進(jìn)行4幀平滑。類似的,對(duì)于最后兩幀,我們可以使用相同的方法進(jìn)行3幀或4幀平滑處理。
對(duì)于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 圖4顯示了一段新聞的短時(shí)能頻值波形片斷,可以看出在平滑處理后,毛刺現(xiàn)象明顯減少,但是波形的大體輪廓保持不變。其中a圖為未平滑的波形,b圖為平滑后的波形。
通過(guò)仿真工具軟件matlab對(duì)很多音頻文件的短時(shí)能頻值波形研究后發(fā)現(xiàn)在語(yǔ)音和音樂(lè)疊加的時(shí)間段中,或者在只有語(yǔ)音的時(shí)間段中,短時(shí)能頻值波形的變化非常劇烈,變化頻率很高,而且變化的幅度非常大。而在既沒(méi)有語(yǔ)音又沒(méi)有音樂(lè),只有背景噪聲的時(shí)間段中,短時(shí)能頻值基本保持很小的變化幅度,而且變化的頻率比較小。另外,在只有音樂(lè)沒(méi)有語(yǔ)音的時(shí)間段中,不管有沒(méi)有背景噪聲出現(xiàn),由于經(jīng)過(guò)了濾波器濾波后,音樂(lè)的高頻部分已經(jīng)被濾掉,所以雖然短時(shí)能頻值變化的幅度仍然非常大,但是,其變化的頻率卻比有語(yǔ)音時(shí)要緩和的多。因此,通過(guò)計(jì)算一個(gè)音頻文件的短時(shí)能頻值序列,并研究其波形,找出其中變化劇烈而且變化幅度較大的部分,就能夠找到此音頻文件中的語(yǔ)音部分,從而可以找到其語(yǔ)音端點(diǎn)。
本發(fā)明所述的方法并不限于具體實(shí)施方式
中所述的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,包括如下步驟
(1)將音頻采樣序列分成固定長(zhǎng)度的幀,并形成一個(gè)幀序列;
(2)針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù);
(3)根據(jù)上述音頻特征參數(shù)按如下公式計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值,并形成一個(gè)短時(shí)能頻值序列,
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,EZE-featurei表示第i幀的短時(shí)能頻值;Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵;Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。
2.如權(quán)利要求1所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,其特征在于在步驟(1)中,將音頻采樣序列分成10ms長(zhǎng)度的幀。
3.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,其特征在于在步驟(2)中,所提取的第i幀的短時(shí)能量為
其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個(gè)采樣的取樣值。
4.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,其特征在于在步驟(2)中,所提取的第i幀的短時(shí)過(guò)零率為
其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個(gè)采樣的取樣值;sgn()為符號(hào)函數(shù),定義為
5.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,其特征在于在步驟(2)中,提取短時(shí)信息熵的步驟如下
(a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換
其中,Sn表示第n個(gè)音頻采樣,N為總采樣數(shù);
(b)計(jì)算每一頻率的出現(xiàn)概率
其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度,
所規(guī)定的約束條件為
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
(c)計(jì)算語(yǔ)音信息熵
其中,M表示傅里葉變換計(jì)算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時(shí)信息熵。
6.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法,其特征在于在步驟(3)中,對(duì)每一幀的短時(shí)能頻值進(jìn)行平滑處理,處理中對(duì)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)分別進(jìn)行平滑,通常采用5幀平滑的方式,對(duì)于某一幀F(xiàn)n,設(shè)它的某個(gè)音頻特征參數(shù)是Xn,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2,則平滑后得到的音頻特征參數(shù)Xn-smoothed為
對(duì)于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為
對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為
全文摘要
本發(fā)明涉及自動(dòng)字幕生成系統(tǒng)中的語(yǔ)音檢測(cè)技術(shù),具體涉及一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法。該方法將音頻采樣序列分成固定長(zhǎng)度的幀,并形成一個(gè)幀序列;針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù);根據(jù)上述音頻特征參數(shù)計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值,并形成一個(gè)短時(shí)能頻值序列。本發(fā)明將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長(zhǎng)處,同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn),從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
文檔編號(hào)G10L11/00GK101625858SQ20081011646
公開日2010年1月13日 申請(qǐng)日期2008年7月10日 優(yōu)先權(quán)日2008年7月10日
發(fā)明者祺 李, 馬華東, 鄭侃彥, 韓忠濤, 婷 張 申請(qǐng)人:新奧特(北京)視頻技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1