本發(fā)明屬于語音增強,具體涉及一種雙麥語音信號降噪方法、裝置、芯片及存儲介質(zhì)。
背景技術(shù):
1、隨著移動電話的廣泛使用,移動語音通信已成為越來越重要的應用,如果遠端講話者處于嘈雜的聲學環(huán)境中,則接收語音的質(zhì)量和可懂度會因為背景噪聲而嚴重降低。為了減弱帶噪語音信號的背景噪聲,大多數(shù)移動電話都已集成了語音增強算法。
2、現(xiàn)有的語音增強技術(shù)主要有基于譜相減的語音增強算法(簡稱譜減法)、基于小波分析的語音增強算法、基于卡爾曼濾波的語音增強算法、基于信號子空間的增強方法、基于聽覺掩蔽效應的語音增強方法、基于獨立分量分析的語音增強方法、基于神經(jīng)網(wǎng)絡(luò)的語音增強方法和基于雙麥克風的語音增強方法等。所述基于雙麥克風的語音增強方法主要是配置雙麥克風,并使其中一個麥克風靠近人體嘴部(例如將該麥克風設(shè)置在手機底部)來收集包含有人聲的現(xiàn)場音,而使其中另一個麥克風遠離人體嘴部(例如將該麥克風設(shè)置在手機頂部)來收集環(huán)境音,然后根據(jù)環(huán)境音,通過算法將人聲從現(xiàn)場音中剝離出來,實現(xiàn)語音增強目的。
3、但是,現(xiàn)有基于雙麥克風的語音增強技術(shù)也存在如下實際使用問題:在一些非理想使用場合中,用來收集人聲的麥克風不一定會被放在講話者嘴邊。例如在錄音或者應用一些app(應用程序,application的縮寫)上的對講機功能時,用戶習慣將手機放置在桌子上,或者拿在距離嘴部略遠的地方,此時兩個麥克風很難接收到不同的聲音,讓算法起不到作用,導致存在降噪效果不明顯和魯棒性差的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供一種雙麥語音信號降噪方法、裝置、芯片及計算機可讀存儲介質(zhì),用以解決現(xiàn)有基于雙麥克風的語音增強技術(shù)在非理想使用場合中存在降噪效果不明顯和魯棒性差的問題。
2、為了實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,提供了一種雙麥語音信號降噪方法,包括:
4、接收來自第一麥克風的第一帶噪語音信號和來自第二麥克風的第二帶噪語音信號,其中,所述第一麥克風與所述第二麥克風的間距大于10厘米且小于20厘米;
5、對所述第一帶噪語音信號中的第一音頻幀和所述第二帶噪語音信號中的第二音頻幀分別進行快速傅立葉變換處理,得到與所述第一音頻幀對應的第一頻譜和與所述第二音頻幀對應的第二頻譜,其中,所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀;
6、將在所述第一頻譜中的且與個頻點一一對應的個幅值分別編碼為紅綠藍rgb三通道顏色值,得到包含有個rgb值的第一待識別數(shù)據(jù),以及將在所述第二頻譜中的且與所述個頻點一一對應的個幅值分別編碼為紅綠藍rgb三通道顏色值,得到包含有個rgb值的第二待識別數(shù)據(jù),其中,表示不小于64的自然數(shù),所述個頻點在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布;
7、根據(jù)所述第一待識別數(shù)據(jù)的個rgb值,繪制得到像素矩陣為的第一待識別圖像,以及根據(jù)所述第二待識別數(shù)據(jù)的個rgb值,繪制得到像素矩陣為的第二待識別圖像,其中,為不小于的平方根的自然數(shù);
8、將所述第一待識別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預訓練的噪聲幀分類模型,得到第一分類結(jié)果,以及將所述第二待識別圖像輸入所述噪聲幀分類模型,得到第二分類結(jié)果,其中,所述噪聲音頻幀用于為所述噪聲幀分類模型提供進行噪聲幀分類訓練的正樣本;
9、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度大于等于所述預設(shè)置信度閾值且所述第二置信度小于所述預設(shè)置信度閾值,則將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,而若發(fā)現(xiàn)所述第一置信度小于所述預設(shè)置信度閾值且所述第二置信度大于等于所述預設(shè)置信度閾值,則將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,其中,所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度,所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度;
10、根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀。
11、基于上述
技術(shù)實現(xiàn)要素:
,提供了一種在非理想使用場合也能基于雙麥克風進行有效降噪的新語音增強方案,即先根據(jù)由雙麥克風同期采集的兩音頻幀,通過快速傅立葉變換、頻點幅值編碼和繪圖處理,得到包含有頻譜特征信息的兩待識別圖像,然后將兩待識別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預訓練的噪聲幀分類模型,得到兩噪聲幀分類結(jié)果,再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預設(shè)置信度閾值的比較結(jié)果,確定與所述兩音頻幀的采集時期對應的估計噪聲幀和降噪目標幀,最后根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀,如此可在任何使用場合都能準確鎖定降噪目標及對應的估計噪聲,進而可通過在降噪目標中準確消去估計噪聲,實現(xiàn)全場景有效進行雙麥語音信號降噪的目的,提升語音增強魯棒性,便于實際應用和推廣。
12、在一個可能的設(shè)計中,將與個頻點一一對應的個幅值分別編碼為紅綠藍rgb三通道顏色值,包括:
13、通過變換數(shù)值單位的方式,將所述個幅值變換為在同一數(shù)值單位下且分別在區(qū)間[0,16777215]內(nèi)的待轉(zhuǎn)數(shù)值;
14、將所述待轉(zhuǎn)數(shù)值從十進制數(shù)字轉(zhuǎn)換為二進制數(shù)字;
15、從左至右對所述二進制數(shù)字進行補0,得到24位二進制數(shù)字;
16、將所述24位二進制數(shù)字中的前8位二進制數(shù)字轉(zhuǎn)換為十進制數(shù)字,得到所述紅綠藍rgb三通道顏色值中的紅色通道顏色值;
17、將所述24位二進制數(shù)字中的中8位二進制數(shù)字轉(zhuǎn)換為十進制數(shù)字,得到所述紅綠藍rgb三通道顏色值中的綠色通道顏色值;
18、將所述24位二進制數(shù)字中的后8位二進制數(shù)字轉(zhuǎn)換為十進制數(shù)字,得到所述紅綠藍rgb三通道顏色值中的藍色通道顏色值。
19、在一個可能的設(shè)計中,所述cnn采用resnet50網(wǎng)絡(luò)結(jié)構(gòu)、mobile-net網(wǎng)絡(luò)結(jié)構(gòu)或vgg16?網(wǎng)絡(luò)結(jié)構(gòu)。
20、在一個可能的設(shè)計中,在根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
21、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預設(shè)置信度閾值,則進一步在所述第一置信度大于所述第二置信度時,將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,而在所述第一置信度小于等于所述第二置信度時,將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀。
22、在一個可能的設(shè)計中,在根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
23、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預設(shè)置信度閾值,則將與在所述第一置信度和所述第二置信度中最小置信度對應的音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,并按照如下方式確定與所述兩音頻幀的采集時期對應的估計噪聲幀:
24、判斷是否存在最近在前估計噪聲幀,其中,所述最近在前估計噪聲幀是指與最近在前采集時期對應的估計噪聲幀,所述最近在前采集時期是指與所述兩音頻幀的采集時期相鄰的前一個采集時期;
25、若是,則將所述最近在前估計噪聲幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,否則從用于預訓練所述噪聲幀分類模型的多個所述噪聲音頻幀中隨機選擇一個所述噪聲音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀。
26、在一個可能的設(shè)計中,在根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀之前,所述方法還包括:
27、根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度和所述第二置信度均小于所述預設(shè)置信度閾值,則將與在所述第一置信度和所述第二置信度中最小置信度對應的音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,并按照如下方式確定與所述兩音頻幀的采集時期對應的估計噪聲幀:
28、當存在至少兩個在前估計噪聲幀時,對所述至少兩個在前估計噪聲幀分別進行所述快速傅立葉變換處理,得到與所述至少兩個在前估計噪聲幀一一對應的至少兩個在前頻譜,其中,所述在前估計噪聲幀是指與在前采集時期對應的估計噪聲幀,所述在前采集時期是指位于所述兩音頻幀的采集時期之前的采集時期;
29、根據(jù)所述至少兩個在前頻譜,得到最近歷史數(shù)組、個非最近歷史數(shù)組和個相對未來數(shù)組,其中,表示小于的非零自然數(shù),表示所述至少兩個在前頻譜的總數(shù),所述最近歷史數(shù)組包含有在與第個采集時期對應的所述在前頻譜中的且與個頻點一一對應的個幅值,表示所述兩音頻幀的采集時期在多個連續(xù)采集時期中的時間序號,表示不小于32的自然數(shù),所述個頻點在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布,在所述個非最近歷史數(shù)組中的第個非最近歷史數(shù)組包含有在與第個采集時期對應的所述在前頻譜中的且與所述個頻點一一對應的個幅值,在所述個相對未來數(shù)組中的第個相對未來數(shù)組與所述第個非最近歷史數(shù)組一一對應且包含有在與第個采集時期的對應的所述在前頻譜中的且與所述個頻點一一對應的個幅值,為非零自然數(shù)且有;
30、將所述個非最近歷史數(shù)組中的各個非最近歷史數(shù)組作為輸入項,以及將所述個相對未來數(shù)組中的且與所述各個非最近歷史數(shù)組一一對應的各個相對未來數(shù)組作為輸出項,對基于支持向量機、k最鄰近法、隨機梯度下降法、多變量線性回歸、多層感知機、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)的人工智能模型進行率定驗證建模,得到幅值預估模型;
31、將所述最近歷史數(shù)組輸入所述幅值預估模型中,輸出得到與所述兩音頻幀的采集時期對應的個預估幅值;
32、對由所述個預估幅值組成的預估頻譜進行快速傅里葉逆變換處理,得到與所述兩音頻幀的采集時期對應的估計噪聲幀。
33、在一個可能的設(shè)計中,在得到所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果之后,所述方法還包括:
34、當發(fā)現(xiàn)所述第一置信度和所述第二置信度均大于等于所述預設(shè)置信度閾值時,判斷所述第一置信度是否大于所述第二置信度;
35、若是,則將所述第一待識別圖像作為用于進行噪聲幀分類訓練的正樣本輸入所述噪聲幀分類模型,對所述噪聲幀分類模型進行再訓練,得到新的噪聲幀分類模型,否則將所述第二待識別圖像作為用于進行噪聲幀分類訓練的正樣本輸入所述噪聲幀分類模型,對所述噪聲幀分類模型進行再訓練,得到新的噪聲幀分類模型。
36、第二方面,提供了一種雙麥語音信號降噪裝置,包括有語音信號接收模塊、傅立葉變換處理模塊、頻點幅值編碼模塊、待識別圖像繪制模塊、噪聲幀分類模塊、音頻幀確定模塊和譜減降噪處理模塊;
37、所述語音信號接收模塊,用于接收來自第一麥克風的第一帶噪語音信號和來自第二麥克風的第二帶噪語音信號,其中,所述第一麥克風與所述第二麥克風的間距大于10厘米且小于20厘米;
38、所述傅立葉變換處理模塊,通信連接所述語音信號接收模塊,用于對所述第一帶噪語音信號中的第一音頻幀和所述第二帶噪語音信號中的第二音頻幀分別進行快速傅立葉變換處理,得到與所述第一音頻幀對應的第一頻譜和與所述第二音頻幀對應的第二頻譜,其中,所述第一音頻幀和所述第二音頻幀為同期采集的兩音頻幀;
39、所述頻點幅值編碼模塊,通信連接所述傅立葉變換處理模塊,用于將在所述第一頻譜中的且與個頻點一一對應的個幅值分別編碼為紅綠藍rgb三通道顏色值,得到包含有個rgb值的第一待識別數(shù)據(jù),以及將在所述第二頻譜中的且與所述個頻點一一對應的個幅值分別編碼為紅綠藍rgb三通道顏色值,得到包含有個rgb值的第二待識別數(shù)據(jù),其中,表示不小于64的自然數(shù),所述個頻點在人體聽覺頻域區(qū)間或人體發(fā)聲頻域區(qū)間內(nèi)等間距分布;
40、所述待識別圖像繪制模塊,通信連接所述頻點幅值編碼模塊,用于根據(jù)所述第一待識別數(shù)據(jù)的個rgb值,繪制得到像素矩陣為的第一待識別圖像,以及根據(jù)所述第二待識別數(shù)據(jù)的個rgb值,繪制得到像素矩陣為的第二待識別圖像,其中,為不小于的平方根的自然數(shù);
41、所述噪聲幀分類模塊,通信連接所述待識別圖像繪制模塊,用于將所述第一待識別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預訓練的噪聲幀分類模型,得到第一分類結(jié)果,以及將所述第二待識別圖像輸入所述噪聲幀分類模型,得到第二分類結(jié)果,其中,所述噪聲音頻幀用于為所述噪聲幀分類模型提供進行噪聲幀分類訓練的正樣本;
42、所述音頻幀確定模塊,分別通信連接所述語音信號接收模塊和所述噪聲幀分類模塊,用于根據(jù)所述第一分類結(jié)果中的第一置信度和所述第二分類結(jié)果中的第二置信度分別與預設(shè)置信度閾值的比較結(jié)果,若發(fā)現(xiàn)所述第一置信度大于等于所述預設(shè)置信度閾值且所述第二置信度小于所述預設(shè)置信度閾值,則將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,而若發(fā)現(xiàn)所述第一置信度小于所述預設(shè)置信度閾值且所述第二置信度大于等于所述預設(shè)置信度閾值,則將所述第二音頻幀作為與所述兩音頻幀的采集時期對應的估計噪聲幀,并將所述第一音頻幀作為與所述兩音頻幀的采集時期對應的降噪目標幀,其中,所述第一置信度是指在所述第一分類結(jié)果中將所述第一音頻幀分類為噪聲幀的置信度,所述第二置信度是指在所述第二分類結(jié)果中將所述第二音頻幀分類為噪聲幀的置信度;
43、所述譜減降噪處理模塊,通信連接所述音頻幀確定模塊,用于根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀。
44、第三方面,本發(fā)明提供了一種雙麥語音信號降噪芯片,包括有依次通信連接的存儲器、處理器和收發(fā)器,其中,所述存儲器用于存儲計算機程序,所述收發(fā)器用于收發(fā)語音信號,所述處理器用于讀取所述計算機程序,執(zhí)行如第一方面或第一方面中任意可能設(shè)計所述的雙麥語音信號降噪方法。
45、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有指令,當所述指令在計算機上運行時,執(zhí)行如第一方面或第一方面中任意可能設(shè)計所述的雙麥語音信號降噪方法。
46、第五方面,本發(fā)明提供了一種包含指令的計算機程序產(chǎn)品,當所述指令在計算機上運行時,使所述計算機執(zhí)行如第一方面或第一方面中任意可能設(shè)計所述的雙麥語音信號降噪方法。
47、上述方案的有益效果:
48、(1)本發(fā)明創(chuàng)造性提供了一種在非理想使用場合也能基于雙麥克風進行有效降噪的新語音增強方案,即先根據(jù)由雙麥克風同期采集的兩音頻幀,通過快速傅立葉變換、頻點幅值編碼和繪圖處理,得到包含有頻譜特征信息的兩待識別圖像,然后將兩待識別圖像輸入基于卷積神經(jīng)網(wǎng)絡(luò)cnn和噪聲音頻幀來完成預訓練的噪聲幀分類模型,得到兩噪聲幀分類結(jié)果,再然后根據(jù)兩噪聲幀分類結(jié)果中的兩置信度與預設(shè)置信度閾值的比較結(jié)果,確定與所述兩音頻幀的采集時期對應的估計噪聲幀和降噪目標幀,最后根據(jù)所述估計噪聲幀,使用譜減法對所述降噪目標幀進行降噪處理,得到降噪結(jié)果幀,如此可在任何使用場合都能準確鎖定降噪目標及對應的估計噪聲,進而可通過在降噪目標中準確消去估計噪聲,實現(xiàn)全場景有效進行雙麥語音信號降噪的目的,提升語音增強魯棒性;
49、(2)還可根據(jù)歷史估計噪聲幀,利用諸如支持向量機、k最鄰近法、隨機梯度下降法、多變量線性回歸、多層感知機、決策樹、反向傳播神經(jīng)網(wǎng)絡(luò)或徑向基函數(shù)網(wǎng)絡(luò)等的人工智能模型來探索近期估計噪聲頻譜的變化規(guī)律,然后利用這種變化規(guī)律預估得到與所述兩音頻幀的采集時期對應的估計噪聲幀,實現(xiàn)在噪聲瞬間非穩(wěn)態(tài)條件下進行有效降噪的目的,進一步提升語音增強魯棒性,便于實際應用和推廣。