音頻識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開(kāi)涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及音頻識(shí)別方法及裝置。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別技術(shù)在現(xiàn)階段得到了廣泛應(yīng)用,語(yǔ)音識(shí)別技術(shù)也被稱為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognit1n,ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
[0003]語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用。
【發(fā)明內(nèi)容】
[0004]本公開(kāi)實(shí)施例提供音頻識(shí)別方法及裝置。所述技術(shù)方案如下:
[0005]第一方面,提供了一種音頻識(shí)別方法,包括:
[0006]采集校準(zhǔn)語(yǔ)音;
[0007]獲取所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息;
[0008]采集待識(shí)別語(yǔ)音;
[0009]在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述語(yǔ)音特征信息匹配的指令語(yǔ)音;
[0010]響應(yīng)于檢測(cè)到所述指令語(yǔ)音,執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作。
[0011 ] 在一個(gè)實(shí)施例中,所述方法還可包括:
[0012]獲取校準(zhǔn)語(yǔ)音的標(biāo)識(shí),所述校準(zhǔn)語(yǔ)音的標(biāo)識(shí)包括:生物特征信息、或標(biāo)識(shí)位;
[0013]關(guān)聯(lián)存儲(chǔ)所述標(biāo)識(shí)與所述語(yǔ)音特征信息。
[0014]在一個(gè)實(shí)施例中,所述在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述語(yǔ)音特征信息匹配的指令語(yǔ)音,可包括:
[0015]獲取所述待識(shí)別語(yǔ)音的標(biāo)識(shí),所述待識(shí)別語(yǔ)音的標(biāo)識(shí)包括:生物特征信息、或標(biāo)識(shí)位;
[0016]在所述校準(zhǔn)語(yǔ)音的標(biāo)識(shí)中查找與所述待識(shí)別語(yǔ)音的標(biāo)識(shí)相同的目標(biāo)標(biāo)識(shí);
[0017]獲取與所述目標(biāo)標(biāo)識(shí)對(duì)應(yīng)的目標(biāo)語(yǔ)音特征信息;
[0018]在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述目標(biāo)語(yǔ)音特征信息匹配的指令語(yǔ)音。
[0019]在一個(gè)實(shí)施例中,所述生物特征信息,可包括下述一項(xiàng)或多項(xiàng):聲紋信息、虹膜信息和指紋信息。
[0020]在一個(gè)實(shí)施例中,所述在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述語(yǔ)音特征信息匹配的指令語(yǔ)音,可包括:
[0021]提取待識(shí)別語(yǔ)音的語(yǔ)音特征信息;
[0022]在提取的待識(shí)別語(yǔ)音的語(yǔ)音特征信息中檢測(cè)所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息;
[0023]所述響應(yīng)于檢測(cè)到所述指令語(yǔ)音,執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作,包括:
[0024]響應(yīng)于檢測(cè)到目標(biāo)校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息,將所述目標(biāo)校準(zhǔn)語(yǔ)音確定為所述指令語(yǔ)音;
[0025]執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作。
[0026]在一個(gè)實(shí)施例中,所述采集校準(zhǔn)語(yǔ)音,可包括:
[0027]采集預(yù)設(shè)次數(shù)的輸入語(yǔ)音,相鄰采集的時(shí)間間隔小于或等于預(yù)設(shè)時(shí)間;
[0028]計(jì)算相鄰時(shí)間采集的兩個(gè)輸入語(yǔ)音的語(yǔ)音特征信息的特征值;
[0029]響應(yīng)于確定所述兩個(gè)輸入語(yǔ)音的特征值之間的差值小于預(yù)設(shè)誤差值,將所述兩個(gè)輸入語(yǔ)音確定為校準(zhǔn)語(yǔ)音。
[0030]在一個(gè)實(shí)施例中,所述語(yǔ)音特征信息可包括下述一項(xiàng)或多項(xiàng):語(yǔ)音的音色、音高、首長(zhǎng)和首強(qiáng)。
[0031]第二方面,提供了一種音頻識(shí)別裝置,包括:
[0032]第一采集模塊,用于采集校準(zhǔn)語(yǔ)音;
[0033]第一獲取模塊,用于獲取第一采集模塊采集的所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息;
[0034]第二采集模塊,用于在第一獲取模塊獲取所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息之后,采集待識(shí)別語(yǔ)首;
[0035]檢測(cè)模塊,用于在第二采集模塊采集待識(shí)別語(yǔ)音之后,在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述語(yǔ)音特征信息匹配的指令語(yǔ)音;
[0036]執(zhí)行模塊,用于響應(yīng)于檢測(cè)到所述指令語(yǔ)音,執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作。
[0037]在一個(gè)實(shí)施例中,所述裝置還可包括:
[0038]第二獲取模塊,用于獲取校準(zhǔn)語(yǔ)音的標(biāo)識(shí),所述校準(zhǔn)語(yǔ)音的標(biāo)識(shí)包括:生物特征信息、或標(biāo)識(shí)位;
[0039]存儲(chǔ)模塊,用于在第二獲取模塊獲取校準(zhǔn)語(yǔ)音的標(biāo)識(shí)之后,關(guān)聯(lián)存儲(chǔ)所述標(biāo)識(shí)與所述語(yǔ)音特征信息。
[0040]在一個(gè)實(shí)施例中,所述檢測(cè)模塊,可包括:
[0041]第一獲取子模塊,用于獲取所述待識(shí)別語(yǔ)音的標(biāo)識(shí),所述待識(shí)別語(yǔ)音的標(biāo)識(shí)包括:生物特征信息、或標(biāo)識(shí)位;
[0042]查找子模塊,用于在第一獲取子模塊獲取所述待識(shí)別語(yǔ)音的標(biāo)識(shí)之后,在所述校準(zhǔn)語(yǔ)音的標(biāo)識(shí)中查找與所述待識(shí)別語(yǔ)音的標(biāo)識(shí)相同的目標(biāo)標(biāo)識(shí);
[0043]第二獲取子模塊,用于獲取與所述目標(biāo)標(biāo)識(shí)對(duì)應(yīng)的目標(biāo)語(yǔ)音特征信息;
[0044]第一檢測(cè)子模塊,用于在第二獲取子模塊獲取與所述目標(biāo)標(biāo)識(shí)對(duì)應(yīng)的目標(biāo)語(yǔ)音特征信息之后,在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述目標(biāo)語(yǔ)音特征信息匹配的指令語(yǔ)音。
[0045]在一個(gè)實(shí)施例中,所述生物特征信息,可包括下述一項(xiàng)或多項(xiàng):聲紋信息、虹膜信息和指紋信息。
[0046]在一個(gè)實(shí)施例中,所述檢測(cè)模塊,可包括:
[0047]提取子模塊,用于提取待識(shí)別語(yǔ)音的語(yǔ)音特征信息;
[0048]第二檢測(cè)子模塊,用于在提取子模塊提取的待識(shí)別語(yǔ)音的語(yǔ)音特征信息中檢測(cè)所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息;
[0049]所述執(zhí)行模塊,包括:
[0050]確定子模塊,用于響應(yīng)于第二檢測(cè)子模塊檢測(cè)到目標(biāo)校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息,將所述目標(biāo)校準(zhǔn)語(yǔ)音確定為所述指令語(yǔ)音;
[0051]執(zhí)行子模塊,用于執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作。
[0052]在一個(gè)實(shí)施例中,所述第一米集模塊,可包括:
[0053]采集子模塊,用于采集預(yù)設(shè)次數(shù)的輸入語(yǔ)音,相鄰采集的時(shí)間間隔小于或等于預(yù)設(shè)時(shí)間;
[0054]計(jì)算子模塊,用于計(jì)算相鄰時(shí)間采集的兩個(gè)輸入語(yǔ)音的語(yǔ)音特征信息的特征值;
[0055]確定子模塊,用于響應(yīng)于確定所述兩個(gè)輸入語(yǔ)音的特征值之間的差值小于預(yù)設(shè)誤差值,將所述兩個(gè)輸入語(yǔ)音確定為校準(zhǔn)語(yǔ)音。
[0056]在一個(gè)實(shí)施例中,所述語(yǔ)音特征信息可包括下述一項(xiàng)或多項(xiàng):語(yǔ)音的音色、音高、首長(zhǎng)和首強(qiáng)。
[0057]第三方面,提供了一種音頻識(shí)別裝置,包括:
[0058]處理器;
[0059]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0060]其中,所述處理器被配置為:
[0061]采集校準(zhǔn)語(yǔ)音;
[0062]獲取所述校準(zhǔn)語(yǔ)音的語(yǔ)音特征信息;
[0063]采集待識(shí)別語(yǔ)音;
[0064]在采集的待識(shí)別語(yǔ)音中檢測(cè)與所述語(yǔ)音特征信息匹配的指令語(yǔ)音;
[0065]響應(yīng)于檢測(cè)所述指令語(yǔ)音,執(zhí)行所述指令語(yǔ)音對(duì)應(yīng)的操作。
[0066]本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0067]上述技術(shù)方案,通過(guò)將采集的語(yǔ)音作為校準(zhǔn)語(yǔ)音,并從待識(shí)別的語(yǔ)音中檢測(cè)與校準(zhǔn)語(yǔ)音匹配的指令語(yǔ)音,如果檢測(cè)到指令語(yǔ)音,則執(zhí)行指令語(yǔ)音對(duì)應(yīng)的操作,因此,用戶可以預(yù)先采集自己的語(yǔ)音作為校準(zhǔn)語(yǔ)音,這樣即使用戶輸入的語(yǔ)音并非標(biāo)準(zhǔn)的普通話,也能很容易的進(jìn)行識(shí)別,給用戶帶來(lái)了便利,提升了用戶的使用體驗(yàn)。
[0068]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
【附圖說(shuō)明】
[0069]此處的附圖被并入說(shuō)明書中并構(gòu)成本說(shuō)明書的一部分,示出了符合本公開(kāi)的實(shí)施例,并與說(shuō)明書一起用于解釋本公開(kāi)的原理。
[0070]圖1是根據(jù)一示例性實(shí)施例示出的音頻識(shí)別方法的流程圖。
[0071]圖2是根據(jù)一示例性實(shí)施例示出的另一種音頻識(shí)別方法的流程圖。
[0072]圖3是根據(jù)一示例性實(shí)施例示出的一種音頻識(shí)別方法中步驟S104的流程圖。
[0073]圖4是根據(jù)一示例性實(shí)施例示出的在采集的待識(shí)別語(yǔ)音中檢測(cè)與語(yǔ)音特征信息匹配的指令語(yǔ)音的方法的流程圖。
[0074]圖5是根據(jù)一示例性實(shí)施例示出的一種音頻識(shí)別方法中步驟S101的流程圖。
[0075]圖6是根據(jù)一示例性實(shí)施例一示出的音頻識(shí)別方法的流程圖。
[0076]圖7是根據(jù)一示例性實(shí)施例示出的音頻識(shí)別裝置的框圖。