一種語音識別方法、語音識別裝置及車輛與流程

文檔序號：39724726發(fā)布日期：2024-10-22 13:22閱讀：1來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及語音識別，特別是涉及一種語音識別方法、語音識別裝置及車輛。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，語音識別作為其核心領(lǐng)域之一，已廣泛應(yīng)用于語音助手、智能家居控制、車載語音系統(tǒng)等多個場景。隨著語音識別技術(shù)的應(yīng)用越來越普及，伴隨著語音識別技術(shù)產(chǎn)生的技術(shù)問題也越來越多。語音端點(diǎn)檢測(voice?activitydetection,vad)是語音識別過程中的重要一環(huán)，vad根據(jù)語音端點(diǎn)檢測時間從帶有噪聲的語音中定位語音開始端點(diǎn)和結(jié)束端點(diǎn)。目前，vad技術(shù)的語音端點(diǎn)檢測時間是默認(rèn)固定的。在一種示例場景中，當(dāng)乘客需要通過車載語音系統(tǒng)進(jìn)行語音控制時，由于乘客的多元化，若采用統(tǒng)一的端點(diǎn)檢測時間可能會出現(xiàn)端點(diǎn)檢測時間結(jié)束之后指令未說完整的情況，影響語音識別的準(zhǔn)確性，進(jìn)而容易導(dǎo)致語音控制失敗，影響乘客的語音控制體驗。因此，如何提高語音識別的準(zhǔn)確性，是當(dāng)前領(lǐng)域急需解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、基于上述問題，本技術(shù)提供了一種語音識別方法、語音識別裝置及車輛，目的是提高語音識別準(zhǔn)確性，提升用戶語音控制的成功率，提升用戶的語音控制體驗。

2、本技術(shù)實(shí)施例公開了如下技術(shù)方案：

3、本技術(shù)第一方面提供了一種語音識別方法，包括：

4、響應(yīng)于用戶的語音指令，獲取所述語音指令的語速信息和語音端點(diǎn)檢測時間參考值；

5、獲取通過人臉識別技術(shù)得到的所述用戶的個人屬性信息；

6、根據(jù)所述語速信息和所述個人屬性信息，在所述語音端點(diǎn)檢測時間參考值的基礎(chǔ)上進(jìn)行動態(tài)調(diào)整，獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間；

7、根據(jù)所述動態(tài)語音端點(diǎn)檢測時間定位所述語音指令的開始檢測端點(diǎn)和結(jié)束檢測端點(diǎn)，識別所述開始檢測端點(diǎn)與所述結(jié)束檢測端點(diǎn)之間的語音。

8、在一種可能的實(shí)現(xiàn)方式中，所述響應(yīng)于用戶的語音指令，獲取所述語音指令的語速信息和語音端點(diǎn)檢測時間參考值，包括：

9、響應(yīng)于用戶的語音指令，計算所述語音指令的語速信息；

10、基于語速與語音端點(diǎn)檢測時間參考值的映射關(guān)系，確定所述語速信息對應(yīng)的語音端點(diǎn)檢測時間參考值。

11、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述語速信息和所述個人屬性信息，在所述語音端點(diǎn)檢測時間參考值的基礎(chǔ)上進(jìn)行動態(tài)調(diào)整，獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間，包括：

12、獲取所述語速信息對應(yīng)的權(quán)重系數(shù)和所述個人屬性信息對應(yīng)的權(quán)重系數(shù)；

13、基于所述語速信息對應(yīng)的權(quán)重系數(shù)和所述個人屬性信息對應(yīng)的權(quán)重系數(shù)，對所述語速信息和所述個人屬性信息加權(quán)求和，獲得調(diào)整系數(shù)；

14、將所述調(diào)整系數(shù)與所述語音端點(diǎn)檢測時間參考值的乘積作為所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間。

15、在一種可能的實(shí)現(xiàn)方式中，所述個人屬性信息至少包括年齡信息，所述個人屬性信息對應(yīng)的權(quán)重系數(shù)至少包括所述年齡信息對應(yīng)的權(quán)重系數(shù)；所述基于所述語速信息對應(yīng)的權(quán)重系數(shù)和所述個人屬性信息對應(yīng)的權(quán)重系數(shù)，對所述語速信息和所述個人屬性信息加權(quán)求和，獲得調(diào)整系數(shù)，包括：

16、將所述語速信息與自身對應(yīng)的權(quán)重系數(shù)相乘，得到第一乘積；以及，將所述年齡信息與自身對應(yīng)的權(quán)重系數(shù)相乘，得到第二乘積；

17、將所述第一乘積與所述第二乘積之和作為所述調(diào)整系數(shù)。

18、在一種可能的實(shí)現(xiàn)方式中，所述個人屬性信息包括年齡信息和通過數(shù)值表征的性別信息，所述個人屬性信息對應(yīng)的權(quán)重系數(shù)包括所述年齡信息對應(yīng)的權(quán)重系數(shù)和所述性別信息對應(yīng)的權(quán)重系數(shù)；所述基于所述語速信息對應(yīng)的權(quán)重系數(shù)和所述個人屬性信息對應(yīng)的權(quán)重系數(shù)，對所述語速信息和所述個人屬性信息加權(quán)求和，獲得調(diào)整系數(shù)，包括：

19、將所述語速信息與自身對應(yīng)的權(quán)重系數(shù)相乘，得到第一乘積；以及，將所述年齡信息與自身對應(yīng)的權(quán)重系數(shù)相乘，得到第二乘積；以及，將所述性別信息與自身對應(yīng)的權(quán)重系數(shù)相乘，得到第三乘積；

20、將所述第一乘積、所述第二乘積與所述第三乘積之和作為所述調(diào)整系數(shù)。

21、在一種可能的實(shí)現(xiàn)方式中，所述個人屬性信息包括年齡信息和通過數(shù)值表征的性別信息，所述個人屬性信息對應(yīng)的權(quán)重系數(shù)包括所述年齡信息對應(yīng)的權(quán)重系數(shù)和所述性別信息對應(yīng)的權(quán)重系數(shù)；所述基于所述語速信息對應(yīng)的權(quán)重系數(shù)和所述個人屬性信息對應(yīng)的權(quán)重系數(shù)，對所述語速信息和所述個人屬性信息加權(quán)求和，獲得調(diào)整系數(shù)，包括：

22、將所述語速信息、所述年齡信息和所述性別信息分別進(jìn)行歸一化處理；

23、利用所述語速信息對應(yīng)的權(quán)重系數(shù)、所述年齡信息對應(yīng)的權(quán)重系數(shù)、所述性別信息對應(yīng)的權(quán)重系數(shù)，對歸一化后的語速信息、年齡信息以及性別信息加權(quán)求和，獲得所述調(diào)整系數(shù)。

24、在一種可能的實(shí)現(xiàn)方式中，在所述獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間之后，語音識別方法還包括：

25、將所述動態(tài)語音端點(diǎn)檢測時間與所述用戶的人臉圖像綁定并存儲，將所述動態(tài)語音端點(diǎn)檢測時間與所述用戶的用戶標(biāo)識綁定并存儲，將所述動態(tài)語音端點(diǎn)檢測時間所述用戶的聲紋信息綁定并存儲，將所述動態(tài)語音端點(diǎn)檢測時間與所述用戶的語速信息綁定并存儲。

26、在一種可能的實(shí)現(xiàn)方式中，在所述識別所述開始檢測端點(diǎn)與所述結(jié)束檢測端點(diǎn)之間的語音之后，語音識別方法還包括：

27、接收針對于所述語音指令的語音識別效果反饋消息；

28、若所述語音識別效果反饋消息指示檢測端點(diǎn)存在問題，則對所述動態(tài)語音端點(diǎn)檢測時間進(jìn)行修正；

29、將修正后的動態(tài)語音端點(diǎn)檢測時間與所述用戶的人臉圖像綁定并存儲，將修正后的動態(tài)語音端點(diǎn)檢測時間與所述用戶的用戶標(biāo)識綁定并存儲，將修正后的動態(tài)語音端點(diǎn)檢測時間所述用戶的聲紋信息綁定并存儲，將修正后的動態(tài)語音端點(diǎn)檢測時間與所述用戶的語速信息綁定并存儲。

30、本技術(shù)第二方面提供了一種語音識別裝置，該裝置包括：

31、第一獲取單元，用于響應(yīng)于用戶的語音指令，獲取所述語音指令的語速信息和語音端點(diǎn)檢測時間參考值；

32、第二獲取單元，用于獲取通過人臉識別技術(shù)得到的所述用戶的個人屬性信息；

33、動態(tài)調(diào)整單元，用于根據(jù)所述語速信息和所述個人屬性信息，在所述語音端點(diǎn)檢測時間參考值的基礎(chǔ)上進(jìn)行動態(tài)調(diào)整，獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間；

34、語音識別單元，用于根據(jù)所述動態(tài)語音端點(diǎn)檢測時間定位所述語音指令的開始檢測端點(diǎn)和結(jié)束檢測端點(diǎn)，識別所述開始檢測端點(diǎn)與所述結(jié)束檢測端點(diǎn)之間的語音。

35、本技術(shù)第三方面提供了一種車輛，該車輛包括：麥克風(fēng)陣列模塊、智能座艙控制單元和人臉識別模塊；所述麥克風(fēng)陣列模塊和所述人臉識別模塊均與所述智能座艙控制單元連接；

36、所述麥克風(fēng)陣列模塊，用于收集用戶的語音指令，將所述語音指令傳輸至所述智能座艙控制單元；

37、所述人臉識別模塊，用于對所述用戶的人臉圖像進(jìn)行屬性識別，獲得所述用戶的個人屬性信息，將所述個人屬性信息傳輸至所述智能座艙控制單元；

38、所述智能座艙控制單元，用于響應(yīng)于所述語音指令，獲取所述語音指令的語速信息和語音端點(diǎn)檢測時間參考值；根據(jù)所述語速信息和所述個人屬性信息，在所述語音端點(diǎn)檢測時間參考值的基礎(chǔ)上進(jìn)行動態(tài)調(diào)整，獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間；根據(jù)所述動態(tài)語音端點(diǎn)檢測時間定位所述語音指令的開始檢測端點(diǎn)和結(jié)束檢測端點(diǎn)，識別所述開始檢測端點(diǎn)與所述結(jié)束檢測端點(diǎn)之間的語音。

39、相較于現(xiàn)有技術(shù)，本技術(shù)具有以下有益效果：

40、本技術(shù)技術(shù)方案中，首先響應(yīng)于用戶的語音指令，獲取所述語音指令的語速信息和語音端點(diǎn)檢測時間參考值；接著獲取通過人臉識別技術(shù)得到的所述用戶的個人屬性信息；其后根據(jù)所述語速信息和所述個人屬性信息，在所述語音端點(diǎn)檢測時間參考值的基礎(chǔ)上進(jìn)行動態(tài)調(diào)整，獲得所述語音指令對應(yīng)的動態(tài)語音端點(diǎn)檢測時間；最后根據(jù)所述動態(tài)語音端點(diǎn)檢測時間定位所述語音指令的開始檢測端點(diǎn)和結(jié)束檢測端點(diǎn)，識別所述開始檢測端點(diǎn)與所述結(jié)束檢測端點(diǎn)之間的語音?？梢?，在本技術(shù)中針對不同的語速和不同的個人屬性信息，可以動態(tài)的調(diào)整語音端點(diǎn)檢測時間。區(qū)別于已有技術(shù)中應(yīng)用固定語音端點(diǎn)檢測時間的語音識別技術(shù)，結(jié)合了個人屬性信息和語速信息，動態(tài)的改變語音指令對應(yīng)的語音端點(diǎn)檢測時間，使其更為準(zhǔn)確。進(jìn)而，本技術(shù)技術(shù)方案提升了語音識別功能的準(zhǔn)確性和語音控制的成功率，提升了用戶對語音識別技術(shù)的使用體驗感。相較于已有技術(shù)中的語音識別技術(shù)，具有明顯的優(yōu)勢。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王浩,張亞娟,王雪瑩,盧亞南,何樂,馬功鳴
技術(shù)所有人：長城汽車股份有限公司
我是此專利的發(fā)明人

上一篇：一種定日鏡用結(jié)構(gòu)膠及其制備方法與流程
上一篇：用于治療AKT/mTOR信號通路相關(guān)疾病的基因

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種語音識別方法、語音識別裝置及車輛與流程