語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法

文檔序號(hào)：2830942閱讀：366來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自動(dòng)字幕生成系統(tǒng)中的語(yǔ)音檢測(cè)技術(shù)，具體涉及一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法。

背景技術(shù)：
語(yǔ)音端點(diǎn)檢測(cè)技術(shù)是語(yǔ)音技術(shù)研究的一個(gè)新的領(lǐng)域，其應(yīng)用于自動(dòng)字幕生成系統(tǒng)中。當(dāng)前的字幕制作方法首先需要準(zhǔn)備好字幕文稿，這種字幕文稿是指在制作電視節(jié)目之前，事先寫好的一個(gè)文本文件，記錄著節(jié)目的標(biāo)題、主持人要說(shuō)的話，以及被采訪人所講的話等內(nèi)容。在制作電視節(jié)目時(shí)，編輯人員把音、視頻素材添加到非線性編輯軟件的故事板上，然后按照節(jié)目的主旨，對(duì)其進(jìn)行編輯。編輯操作一般包括對(duì)素材位置的修改，添加一些特技，添加字幕等等。添加字幕時(shí)，一般是先在字幕文稿中選擇多段文字(每一段就是一句話)，然后以這些文字生成一個(gè)新的字幕文件，將這個(gè)文件拖上非線性編輯軟件的軌道，此時(shí)字幕中的每一句話就會(huì)按順序播出，但是往往會(huì)出現(xiàn)“聲畫不同步”的現(xiàn)象，即字幕出現(xiàn)的時(shí)刻和音頻文件中播出的聲音對(duì)不上。這時(shí)就需要編輯人員一邊聽聲音，一邊一句句地修改字幕的入點(diǎn)和出點(diǎn)的值。這就非常耗費(fèi)人力和時(shí)間，影響唱詞文件生成的質(zhì)量和效率。
從復(fù)雜背景噪聲中找出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)，即語(yǔ)音端點(diǎn)檢測(cè)技術(shù)，一直是語(yǔ)音信號(hào)處理中的基本問(wèn)題。由于語(yǔ)音端點(diǎn)檢測(cè)的重要性，人們已經(jīng)提出了很多種語(yǔ)音端點(diǎn)檢測(cè)方法。這些方法大致可以分為基于模型的方法和基于門限的方法兩類。
基于門限的語(yǔ)音端點(diǎn)檢測(cè)方法是根據(jù)語(yǔ)音的特點(diǎn)，選擇合適的特征參數(shù)，然后將該特征參數(shù)與預(yù)先設(shè)定的門限值進(jìn)行比較，或者是先對(duì)特征參數(shù)進(jìn)行一系列的后期處理然后再與門限進(jìn)行比較。
現(xiàn)有的基于門限的端點(diǎn)檢測(cè)參數(shù)主要有 1)能量以聲音的強(qiáng)度作為判斷參數(shù)。這種方法在高信噪比的情況下會(huì)有很好的效果。但是，在信噪比低的情況下，如在汽車引擎聲、關(guān)門聲等噪聲的干擾下，這種方法的準(zhǔn)確率很低。
2)頻率采用頻率域的特征作為判斷依據(jù)。這種方法可以準(zhǔn)確的區(qū)分語(yǔ)音和汽車引擎、關(guān)門聲等噪聲，但是，對(duì)于語(yǔ)音和樂(lè)音的區(qū)別效果較差。
無(wú)論采用哪種音頻參數(shù)，傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)方法在特定的噪聲環(huán)境下都存在很大的不足。比如，基于能量的方法在低SNR的環(huán)境中表現(xiàn)不好；基于信息熵的算法在音樂(lè)背景下則會(huì)失效。
因此，有必要引入一種音頻參數(shù)，能夠在多種噪聲條件下保證語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)自動(dòng)字幕生成系統(tǒng)的特點(diǎn)以及傳統(tǒng)語(yǔ)音端點(diǎn)檢測(cè)方法在語(yǔ)音特征參數(shù)選取上的缺陷，提供一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，該方法將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起，能夠發(fā)揮它們各自的長(zhǎng)處，同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn)，從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
本發(fā)明的技術(shù)方案如下一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，包括如下步驟 (1)將音頻采樣序列分成固定長(zhǎng)度的幀，并形成一個(gè)幀序列； (2)針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)； (3)根據(jù)上述音頻特征參數(shù)按如下公式計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值，并形成一個(gè)短時(shí)能頻值序列， EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中，EZE-featurei表示第i幀的短時(shí)能頻值；Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵；Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。
進(jìn)一步，如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，在步驟(1)中，將音頻采樣序列分成10ms長(zhǎng)度的幀。
進(jìn)一步，如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，在步驟(2)中，所提取的第i幀的短時(shí)能量為其中，N表示第i幀中所包含的音頻采樣數(shù)量；Sn表示第n個(gè)采樣的取樣值。
進(jìn)一步，如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，在步驟(2)中，所提取的第i幀的短時(shí)過(guò)零率為其中，N表示第i幀中所包含的音頻采樣數(shù)量；Sn表示第n個(gè)采樣的取樣值；sgn()為符號(hào)函數(shù)，定義為進(jìn)一步，如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，在步驟(2)中，提取短時(shí)信息熵的步驟如下 (a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換其中，Sn表示第n個(gè)音頻采樣，N為總采樣數(shù)； (b)計(jì)算每一頻率的出現(xiàn)概率其中，s(fi)表示頻率f的頻譜能量，pi表示相應(yīng)頻率的出現(xiàn)概率，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，所規(guī)定的約束條件為 s(fi)＝0 if fi≤250HZ or fi≥3750HZ pi＝0 if pi≥0.9 (c)計(jì)算語(yǔ)音信息熵其中，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，pi表示相應(yīng)頻率的出現(xiàn)概率，Hi表示第i幀的短時(shí)信息熵。
更進(jìn)一步，如上所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，在步驟(3)中，對(duì)每一幀的短時(shí)能頻值進(jìn)行平滑處理，處理中對(duì)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)分別進(jìn)行平滑，通常采用5幀平滑的方式，對(duì)于某一幀F(xiàn)n，設(shè)它的某個(gè)音頻特征參數(shù)是Xn，找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2，并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2，則平滑后得到的音頻特征參數(shù)Xn-smoothed為對(duì)于第一幀和最后一幀采用3幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為本發(fā)明的有益效果如下本發(fā)明所提供的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法綜合考慮了語(yǔ)音的時(shí)域和頻域特征，將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起，能夠發(fā)揮它們各自的長(zhǎng)處，同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn)。語(yǔ)音端點(diǎn)檢測(cè)所針對(duì)的一般是一段比較長(zhǎng)的語(yǔ)音段，在此期間背景噪聲隨時(shí)有可能發(fā)生各種變化。當(dāng)檢測(cè)到背景噪聲的變化時(shí)，可以相應(yīng)的更新Eb、Zb和Hb三個(gè)參數(shù)的值，然后重新計(jì)算那些受此噪聲影響的幀的短時(shí)能頻值，從而使短時(shí)能頻值能夠?qū)Ρ尘霸肼暤淖兓龀龇磻?yīng)，從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。

圖1為短時(shí)能頻值的提取流程圖。
圖2為短時(shí)能頻值的波形圖。
圖3為短時(shí)能頻值的平滑處理流程圖。
圖4為短時(shí)能頻值平滑處理前后的波形對(duì)比圖。

具體實(shí)施例方式 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
(一)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)的提取 1.短時(shí)能量能量是最經(jīng)常使用的音頻特征參數(shù)之一，是對(duì)語(yǔ)音信號(hào)最直觀的表示。語(yǔ)音信號(hào)的能量分析基于語(yǔ)音信號(hào)幅度隨時(shí)間有相當(dāng)?shù)淖兓@一現(xiàn)象。能量可以用于區(qū)別發(fā)音的清音段和濁音段，能量值較大的對(duì)應(yīng)于清音段，能量值較小的對(duì)應(yīng)于濁音段。對(duì)于高信噪比的信號(hào)，可以用能量來(lái)判斷有無(wú)語(yǔ)音。無(wú)語(yǔ)音信號(hào)的噪聲能量較小，而有語(yǔ)音信號(hào)時(shí)能量會(huì)顯著增大，由此可以粗略區(qū)分語(yǔ)音信號(hào)的起始點(diǎn)和中止點(diǎn)。另外，能量還可以用來(lái)區(qū)分聲母和韻母的分界、以及連字的分界等。
在本發(fā)明中，采用“短時(shí)能量”作為主要的特征參數(shù)之一。所謂短時(shí)能量，就是先對(duì)音頻信號(hào)進(jìn)行分幀處理，然后對(duì)每一幀求其能量，它被定義為一幀中所有采樣值平方的和。第i幀的短時(shí)能量定義為其中，N表示第i幀中所包含的音頻采樣數(shù)量；Sn表示第n個(gè)采樣的取樣值。
2.短時(shí)過(guò)零率過(guò)零率是聲音信號(hào)處理過(guò)程中一個(gè)常用的音頻特征參數(shù)。當(dāng)離散語(yǔ)音信號(hào)的時(shí)域波形通過(guò)時(shí)間橫軸時(shí)，相鄰時(shí)刻的采樣值如果具有不同的符號(hào)，稱為“過(guò)零”。單位時(shí)間的過(guò)零次數(shù)稱為“過(guò)零率”，即單位時(shí)間內(nèi)音頻采樣值符號(hào)變換的次數(shù)。同上，在本發(fā)明中將單位時(shí)間限定為一幀，每一幀的過(guò)零率就是“短時(shí)過(guò)零率”。第i幀的短時(shí)過(guò)零率定義如下其中，Sn表示第n個(gè)音頻采樣的值；sgn()為符號(hào)函數(shù)，定義為過(guò)零分析是語(yǔ)音的時(shí)域分析中最簡(jiǎn)單的一種分析。它可以區(qū)別語(yǔ)音的發(fā)音是清音還是濁音。由于清音語(yǔ)音的多數(shù)能量出現(xiàn)在較高的頻率上，因此清音的過(guò)零率較高；而濁音語(yǔ)音具有高頻跌落的頻譜，因此濁音的過(guò)零率低。利用短時(shí)過(guò)零率還可以從背景噪聲中找出語(yǔ)音信號(hào)。在孤立詞的語(yǔ)音識(shí)別中，必須要在一串連續(xù)的語(yǔ)音信號(hào)中進(jìn)行適當(dāng)分割，用以確定每個(gè)單詞語(yǔ)音的信號(hào)，也即找出每個(gè)單詞的開始和終止位置。用平均過(guò)零率來(lái)確定單詞的起始點(diǎn)時(shí)，判斷依據(jù)是語(yǔ)音開始點(diǎn)以前的過(guò)零率低，而開始點(diǎn)以后的過(guò)零率有明顯的數(shù)值。在有背景噪聲的情況下，一般背景噪聲的平均過(guò)零率較低，而單詞起始段的平均過(guò)零率急劇增大，由此可判定此單詞的起始點(diǎn)。
3.短時(shí)信息熵語(yǔ)音的感知過(guò)程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此，對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析，是認(rèn)識(shí)語(yǔ)音信號(hào)和處理語(yǔ)音信號(hào)的重要方法。語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào)，但是其非平穩(wěn)性是由發(fā)音器官的物理運(yùn)動(dòng)過(guò)程而產(chǎn)生的，由此可以假定其頻域也是短時(shí)平穩(wěn)的。
信息熵是頻域的重要音頻參數(shù)，它反應(yīng)了語(yǔ)音信號(hào)所傳達(dá)的信息量的大小。信息熵在語(yǔ)音編解碼中經(jīng)常被使用，J.L.Shen首次將它應(yīng)用在語(yǔ)音端點(diǎn)檢測(cè)技術(shù)中。本發(fā)明同樣對(duì)每一幀都計(jì)算其信息熵，稱為短時(shí)信息熵，計(jì)算方法如下 (a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換由于此處的傅立葉變換都是對(duì)某一幀進(jìn)行的，因此相當(dāng)于對(duì)傅立葉變換加上了一個(gè)窗口函數(shù)w(n-k)。k的取值取決于要對(duì)哪一幀進(jìn)行短時(shí)傅立葉變換。
(b)計(jì)算每一頻率的出現(xiàn)概率其中，s(fi)表示頻率f的頻譜能量，pi表示相應(yīng)頻率的出現(xiàn)概率，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，此處取480。
所規(guī)定的約束條件為 s(fi)＝0 if fi≤250HZ or fi≥3750HZ pi＝0 if pi≥0.9 第一個(gè)約束公式用來(lái)保證語(yǔ)音信號(hào)的頻率范圍。因?yàn)槿说陌l(fā)音頻率基本集中在250Hz到3750Hz之間，所以我們把頻率限定在這個(gè)范圍之內(nèi)。第二個(gè)約束公式用來(lái)濾除在某些頻率上持續(xù)發(fā)生的噪聲。
(c)計(jì)算語(yǔ)音信息熵其中，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，pi表示相應(yīng)頻率的出現(xiàn)概率，Hi表示第i幀的短時(shí)信息熵。
試驗(yàn)證明，語(yǔ)音信號(hào)的信息熵和非語(yǔ)音信號(hào)的信息熵之間存在很大的差別，由此可以用來(lái)尋找語(yǔ)音端點(diǎn)的位置。在很多情況下，尤其是當(dāng)背景噪聲主要是機(jī)械噪聲時(shí)，使用信息熵作為特征參數(shù)比單純使用能量更加可靠。
但是，在連續(xù)不斷的背景噪聲或者音樂(lè)背景下，使用信息熵來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)會(huì)非常不可靠。因?yàn)橥Z(yǔ)音一樣，連續(xù)的背景噪聲或者背景音樂(lè)也含有很多信息。相對(duì)而言，在這種情況下使用能量作為特征參數(shù)反而會(huì)取得較好的效果，因?yàn)檎Z(yǔ)音與背景噪聲的疊加總會(huì)大過(guò)單純的背景噪聲。
(二)短時(shí)能頻值的確定在上述三個(gè)音頻特征參數(shù)的基礎(chǔ)上，本發(fā)明提出了一個(gè)結(jié)合時(shí)域和頻域的語(yǔ)音特征參數(shù)，稱作短時(shí)能頻值，記做EZE-feature。
1.短時(shí)能頻值的定義第i幀的短時(shí)能頻值EZE-featurei的定義如下 EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中，EZE-featurei表示第i幀的短時(shí)能頻值；Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵；而Eb、Zb和Hb則分別表示了當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。典型的短時(shí)能頻值波形如圖2所示，截取自一段新聞的短時(shí)能頻值波形。
短時(shí)能頻值同時(shí)結(jié)合了時(shí)域和頻域的語(yǔ)音特征。短時(shí)能量和短時(shí)過(guò)零率屬于時(shí)域的音頻特征參數(shù)，短時(shí)信息熵則屬于頻域的音頻特征參數(shù)。將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起，能夠發(fā)揮它們各自的長(zhǎng)處，同時(shí)又可以在一定程度上規(guī)避它們各自的缺點(diǎn)，從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
鑒于背景噪聲和背景音樂(lè)的這種不確定性，我們不可能一直使用音頻信號(hào)的前幾幀作為背景噪聲。而是應(yīng)該在端點(diǎn)檢測(cè)過(guò)程中，根據(jù)檢測(cè)出的語(yǔ)音情況，自動(dòng)選取新的音頻幀作為背景噪聲進(jìn)行處理。
首先，默認(rèn)音頻文件最初的10ms為環(huán)境音，將這10ms的音頻信號(hào)的短時(shí)能量平均值、短時(shí)過(guò)零率平均值和短時(shí)信息熵平均值作為最初的背景噪聲的短時(shí)能量Eb、短時(shí)過(guò)零率Zb和短時(shí)信息熵Hb。自適應(yīng)的語(yǔ)音端點(diǎn)檢測(cè)算法對(duì)于噪聲采取了一種反饋機(jī)制當(dāng)發(fā)現(xiàn)背景噪聲可能已經(jīng)發(fā)生變化時(shí)，算法要回退到噪聲發(fā)生變化之前的語(yǔ)音幀，重新進(jìn)行檢測(cè)。其過(guò)程如下所述 1)找到了某個(gè)語(yǔ)音起點(diǎn)，記為第Fh幀，當(dāng)Fh與上一個(gè)語(yǔ)音終點(diǎn)Ft幀相距300ms以上時(shí)，則進(jìn)行環(huán)境噪聲的提取。
2)從第Ft幀開始，取接下來(lái)的10幀當(dāng)作背景噪聲，重新計(jì)算Eb、Zb和Hb的值。計(jì)算方法為取算術(shù)平均，以Eb為例 3)從第Ft+1幀開始，使用更新后的Eb、Zb和Hb，重新計(jì)算每一幀的短時(shí)能頻值，得到新的短時(shí)能頻值序列。
4)從第Ft+1幀開始，使用新的短時(shí)能頻值序列重新執(zhí)行端點(diǎn)檢測(cè)過(guò)程。
2.短時(shí)能頻值的提取過(guò)程在語(yǔ)音端點(diǎn)檢測(cè)過(guò)程中，我們需要求得每一幀的短時(shí)能頻值。求第i幀的短時(shí)能頻值，就要用到第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。其提取過(guò)程如圖1所示。
步驟1首先對(duì)音頻信號(hào)序列進(jìn)行分幀處理，得到一個(gè)音頻幀序列。在本發(fā)明中將10ms規(guī)定為一幀。例如，如果音頻文件的采樣率是48k/s，那么每幀就應(yīng)該包含480個(gè)采樣。
步驟2從步驟1中得到的幀序列里的第一幀開始直到最后，計(jì)算每一幀的三個(gè)音頻特征參數(shù)，得到短時(shí)能量序列、短時(shí)過(guò)零率序列和短時(shí)信息熵序列。
步驟3從幀序列里的第一幀開始直到最后，應(yīng)用步驟2里求得的三個(gè)音頻特征參數(shù)序列，并應(yīng)用每一幀所對(duì)應(yīng)的背景噪聲的相應(yīng)音頻特征參數(shù)，按照短時(shí)能頻值的定義公式進(jìn)行計(jì)算。重復(fù)此過(guò)程直到所有幀的短時(shí)能頻值都計(jì)算完成。最后得到一個(gè)與幀序列相對(duì)應(yīng)的短時(shí)能頻值序列。
3.短時(shí)能頻值的平滑處理人的語(yǔ)音在字(詞)之間具有一定的相關(guān)性，字(詞)之間不會(huì)產(chǎn)生非常突兀的變化。因此，可以對(duì)上述三個(gè)語(yǔ)音特征參數(shù)進(jìn)行平滑處理。一方面，由于噪聲的影響，音頻信號(hào)中可能出現(xiàn)突兀的毛刺現(xiàn)象，主要表現(xiàn)為在一系列平緩的音頻波形中突然出現(xiàn)劇烈震動(dòng)的單個(gè)波(正常情況為一系列的震動(dòng)波)。使用平滑處理可以有效地去除一些由噪聲引起的毛刺現(xiàn)象。另一方面，也對(duì)語(yǔ)音參數(shù)的有效性做出一定的優(yōu)化。語(yǔ)音信號(hào)是連續(xù)的，語(yǔ)音前后之間具有一定的相關(guān)性，將語(yǔ)音信號(hào)分割成一系列間斷幀的處理方式破壞了這種相關(guān)性，而平滑處理則可以在一定程度上彌補(bǔ)由于分幀處理帶來(lái)的影響。
平滑處理可在時(shí)域上進(jìn)行，也可以在頻域上進(jìn)行。本發(fā)明對(duì)音頻信號(hào)主要采取時(shí)域平滑的處理方式。
因?yàn)楸景l(fā)明中需要用到3個(gè)音頻特征參數(shù)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵都是直接使用音頻信號(hào)的取樣值求得的，因此在進(jìn)行平滑處理時(shí)也要對(duì)3個(gè)特征參數(shù)分別進(jìn)行平滑。
對(duì)于某一幀F(xiàn)n進(jìn)行平滑處理，設(shè)它的某個(gè)音頻特征參數(shù)是Xn。采用5幀平滑的方式，找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2，并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2。則平滑后得到的音頻特征參數(shù)Xn-smoothed為整個(gè)平滑處理的過(guò)程如圖3所示。在進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)之前，我們需要對(duì)音頻信號(hào)中的每一幀都按照上述方法進(jìn)行平滑處理。
對(duì)于音頻信號(hào)中的開始兩幀以及最后兩幀，無(wú)法進(jìn)行5幀平滑。在音頻文件中，一般在開始的兩幀和最后的兩幀中很少有語(yǔ)音出現(xiàn)，因此對(duì)這些邊界幀進(jìn)行異常處理并不會(huì)對(duì)語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確度產(chǎn)生大的影響。從而可以相應(yīng)的采取4幀或3幀進(jìn)行平滑處理。
對(duì)第一幀，我們可以同時(shí)使用第1、2、3幀來(lái)進(jìn)行3幀平滑；而對(duì)于第二幀，我們可以使用第1、2、3和4幀來(lái)進(jìn)行4幀平滑。類似的，對(duì)于最后兩幀，我們可以使用相同的方法進(jìn)行3幀或4幀平滑處理。
對(duì)于第一幀和最后一幀采用3幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為圖4顯示了一段新聞的短時(shí)能頻值波形片斷，可以看出在平滑處理后，毛刺現(xiàn)象明顯減少，但是波形的大體輪廓保持不變。其中a圖為未平滑的波形，b圖為平滑后的波形。
通過(guò)仿真工具軟件matlab對(duì)很多音頻文件的短時(shí)能頻值波形研究后發(fā)現(xiàn)在語(yǔ)音和音樂(lè)疊加的時(shí)間段中，或者在只有語(yǔ)音的時(shí)間段中，短時(shí)能頻值波形的變化非常劇烈，變化頻率很高，而且變化的幅度非常大。而在既沒(méi)有語(yǔ)音又沒(méi)有音樂(lè)，只有背景噪聲的時(shí)間段中，短時(shí)能頻值基本保持很小的變化幅度，而且變化的頻率比較小。另外，在只有音樂(lè)沒(méi)有語(yǔ)音的時(shí)間段中，不管有沒(méi)有背景噪聲出現(xiàn)，由于經(jīng)過(guò)了濾波器濾波后，音樂(lè)的高頻部分已經(jīng)被濾掉，所以雖然短時(shí)能頻值變化的幅度仍然非常大，但是，其變化的頻率卻比有語(yǔ)音時(shí)要緩和的多。因此，通過(guò)計(jì)算一個(gè)音頻文件的短時(shí)能頻值序列，并研究其波形，找出其中變化劇烈而且變化幅度較大的部分，就能夠找到此音頻文件中的語(yǔ)音部分，從而可以找到其語(yǔ)音端點(diǎn)。
本發(fā)明所述的方法并不限于具體實(shí)施方式
中所述的實(shí)施例，本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式，同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，包括如下步驟
(1)將音頻采樣序列分成固定長(zhǎng)度的幀，并形成一個(gè)幀序列；
(2)針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)；
(3)根據(jù)上述音頻特征參數(shù)按如下公式計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值，并形成一個(gè)短時(shí)能頻值序列，
EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中，EZE-featurei表示第i幀的短時(shí)能頻值；Ei、Zi和Hi分別表示第i幀的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵；Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵。
2.如權(quán)利要求1所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，其特征在于在步驟(1)中，將音頻采樣序列分成10ms長(zhǎng)度的幀。
3.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，其特征在于在步驟(2)中，所提取的第i幀的短時(shí)能量為
其中，N表示第i幀中所包含的音頻采樣數(shù)量；Sn表示第n個(gè)采樣的取樣值。
4.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，其特征在于在步驟(2)中，所提取的第i幀的短時(shí)過(guò)零率為
其中，N表示第i幀中所包含的音頻采樣數(shù)量；Sn表示第n個(gè)采樣的取樣值；sgn()為符號(hào)函數(shù)，定義為
5.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，其特征在于在步驟(2)中，提取短時(shí)信息熵的步驟如下
(a)利用短時(shí)傅里葉變換(FFT)對(duì)每一幀的信號(hào)進(jìn)行由時(shí)域向頻域的轉(zhuǎn)換
其中，Sn表示第n個(gè)音頻采樣，N為總采樣數(shù)；
(b)計(jì)算每一頻率的出現(xiàn)概率
其中，s(fi)表示頻率f的頻譜能量，pi表示相應(yīng)頻率的出現(xiàn)概率，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，
所規(guī)定的約束條件為
s(fi)＝0 if fi≤250HZ or fi≥3750HZ
pi＝0 if pi≥0.9
(c)計(jì)算語(yǔ)音信息熵
其中，M表示傅里葉變換計(jì)算得出的頻率的總數(shù)，即窗口寬度，pi表示相應(yīng)頻率的出現(xiàn)概率，Hi表示第i幀的短時(shí)信息熵。
6.如權(quán)利要求1或2所述的語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法，其特征在于在步驟(3)中，對(duì)每一幀的短時(shí)能頻值進(jìn)行平滑處理，處理中對(duì)短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)分別進(jìn)行平滑，通常采用5幀平滑的方式，對(duì)于某一幀F(xiàn)n，設(shè)它的某個(gè)音頻特征參數(shù)是Xn，找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2，并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2，則平滑后得到的音頻特征參數(shù)Xn-smoothed為
對(duì)于第一幀和最后一幀采用3幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為
對(duì)于第二幀和倒數(shù)第二幀采用4幀平滑的方式，平滑后得到的音頻特征參數(shù)分別為
全文摘要
本發(fā)明涉及自動(dòng)字幕生成系統(tǒng)中的語(yǔ)音檢測(cè)技術(shù)，具體涉及一種語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法。該方法將音頻采樣序列分成固定長(zhǎng)度的幀，并形成一個(gè)幀序列；針對(duì)每一幀數(shù)據(jù)提取短時(shí)能量、短時(shí)過(guò)零率和短時(shí)信息熵三個(gè)音頻特征參數(shù)；根據(jù)上述音頻特征參數(shù)計(jì)算每一幀數(shù)據(jù)的短時(shí)能頻值，并形成一個(gè)短時(shí)能頻值序列。本發(fā)明將時(shí)域和頻域的音頻特征參數(shù)結(jié)合在一起，能夠發(fā)揮它們各自的長(zhǎng)處，同時(shí)又可以在一定程度上規(guī)避各自的缺點(diǎn)，從而能夠有效的應(yīng)對(duì)各種不同類型的背景噪聲。
文檔編號(hào)G10L11/00GK101625858SQ20081011646
公開日2010年1月13日申請(qǐng)日期2008年7月10日優(yōu)先權(quán)日2008年7月10日
發(fā)明者祺李, 馬華東, 鄭侃彥, 韓忠濤, 婷張申請(qǐng)人:新奧特(北京)視頻技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李祺;馬華東;鄭侃彥;韓忠濤;張婷
技術(shù)所有人：新奧特（北京）視頻技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音信號(hào)端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音端點(diǎn)檢測(cè)算法相關(guān)技術(shù)

python語(yǔ)音端點(diǎn)檢測(cè)相關(guān)技術(shù)

語(yǔ)音端點(diǎn)檢測(cè)實(shí)驗(yàn)相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音端點(diǎn)檢測(cè)中短時(shí)能頻值的提取方法