本技術涉及通信,尤其涉及一種語音質量評估方法、裝置及存儲介質。
背景技術:
1、通常情況下,運營商通過評估語音質量進行網(wǎng)絡問題定位和優(yōu)化語音質量。在語音質量評估中,發(fā)生用戶接不通和掉話的現(xiàn)象很少,但是通話中發(fā)生單通或斷續(xù)的現(xiàn)象非常多。語音的單通或斷續(xù)是以用戶面數(shù)據(jù)來評估語音質量,可以直接反映出用戶的實際通話感知,是運營商進行網(wǎng)絡問題定位和優(yōu)化語音質量的關鍵指標。
2、目前,主要通過機器學習算法擬合或者人為規(guī)定分析通話的語音包的丟包情況,進而評估通話中是否發(fā)生單通或斷續(xù),以實現(xiàn)對語音包的語音質量評估。但是,上述方法是采用固定的門限值來評估是否出現(xiàn)單通或斷續(xù),進而導致語音包的語音質量評估的精確性較低。
技術實現(xiàn)思路
1、本技術提供一種語音質量評估方法、裝置及存儲介質,能夠提高語音包的語音質量評估的精確性。
2、為達到上述目的,本技術采用如下技術方案:
3、第一方面,本技術提供一種語音質量評估方法,該方法包括:獲取第一語音包,第一語音包為待評估語音質量的語音包;對第一語音包進行處理,確定第一語音包的特征,第一語音包的特征用于指示第一語音包對應的用戶的特征和/或第一語音包對應的音頻流的語音特征;將第一語音包的特征輸入到語音質量評估模型中,確定第一語音包的語音質量評估結果,語音質量評估結果用于指示第一語音包對應的音頻流中是否存在單通和/或斷續(xù)。
4、在一種可能的實現(xiàn)方式中,對第一語音包進行處理,確定第一語音包的特征,包括:對第一語音包進行劃分,得到至少一個時間段內的第二語音包;對至少一個時間段中每個時間段內的第二語音包進行解碼,得到每個時間段內的第二語音包對應的音頻流;基于每個時間段內的第二語音包對應的音頻流,確定第一語音包的特征。
5、在一種可能的實現(xiàn)方式中,第一語音包的特征包括每個時間段內的第二語音包的特征,基于每個時間段內的第二語音包對應的音頻流,確定第一語音包的特征,包括:將每個時間段內的第二語音包對應的音頻流輸入到特征識別模型中,確定每個時間段內的第二語音包的特征。
6、在一種可能的實現(xiàn)方式中,第二語音包的特征包括以下至少一項:用戶的性別、用戶的方言、用戶的語速、或者語音中斷時長區(qū)間值,語音中斷時長區(qū)間值為第二語音包對應的音頻流的中斷時長位于至少一個時長區(qū)間中每個時長區(qū)間的次數(shù)。
7、在一種可能的實現(xiàn)方式中,方法還包括:獲取多個第三語音包和多個第三語音包的語音質量評估結果,第三語音包為已評估過語音質量的語音包;基于多個第三語音包和多個第三語音包的語音質量評估結果,對初始模型進行訓練,確定語音質量評估模型。
8、在一種可能的實現(xiàn)方式中,基于多個第三語音包和多個第三語音包的語音質量評估結果,對初始模型進行訓練,確定語音質量評估模型,包括:對多個第三語音包進行處理,確定多個第三語音包的特征;基于多個第三語音包的特征和多個第三語音包的語音質量評估結果,對初始模型進行訓練,確定語音質量評估模型。
9、在一種可能的實現(xiàn)方式中,語音質量評估結果包括以下至少一項:是否出現(xiàn)單通、是否出現(xiàn)斷續(xù)、單通的占比、或者斷續(xù)的占比;其中,單通的占比用于指示至少一個時間段內的第二語音包中,出現(xiàn)單通的第二語音包的占比,斷續(xù)的占比用于指示至少一個時間段內的第二語音包中,出現(xiàn)斷續(xù)的第二語音包的占比。
10、第二方面,本技術提供一種語音質量評估裝置,該裝置包括:通信單元和處理單元;通信單元,用于獲取第一語音包,第一語音包為待評估語音質量的語音包;處理單元,用于對第一語音包進行處理,確定第一語音包的特征,第一語音包的特征用于指示第一語音包對應的用戶的特征和/或第一語音包對應的音頻流的語音特征;處理單元,還用于將第一語音包的特征輸入到語音質量評估模型中,確定第一語音包的語音質量評估結果,語音質量評估結果用于指示第一語音包對應的音頻流中是否存在單通和/或斷續(xù)。
11、在一種可能的實現(xiàn)方式中,處理單元,還用于對第一語音包進行劃分,得到至少一個時間段內的第二語音包;處理單元,還用于對至少一個時間段中每個時間段內的第二語音包進行解碼,得到每個時間段內的第二語音包對應的音頻流;處理單元,還用于基于每個時間段內的第二語音包對應的音頻流,確定第一語音包的特征。
12、在一種可能的實現(xiàn)方式中,第一語音包的特征包括每個時間段內的第二語音包的特征,處理單元,還用于將每個時間段內的第二語音包對應的音頻流輸入到特征識別模型中,確定每個時間段內的第二語音包的特征。
13、在一種可能的實現(xiàn)方式中,第二語音包的特征包括以下至少一項:用戶的性別、用戶的方言、用戶的語速、或者語音中斷時長區(qū)間值,語音中斷時長區(qū)間值為第二語音包對應的音頻流的中斷時長位于至少一個時長區(qū)間中每個時長區(qū)間的次數(shù)。
14、在一種可能的實現(xiàn)方式中,通信單元,還用于獲取多個第三語音包和多個第三語音包的語音質量評估結果,第三語音包為已評估過語音質量的語音包;處理單元,還用于基于多個第三語音包和多個第三語音包的語音質量評估結果,對初始模型進行訓練,確定語音質量評估模型。
15、在一種可能的實現(xiàn)方式中,處理單元,還用于對多個第三語音包進行處理,確定多個第三語音包的特征;處理單元,還用于基于多個第三語音包的特征和多個第三語音包的語音質量評估結果,對初始模型進行訓練,確定語音質量評估模型。
16、在一種可能的實現(xiàn)方式中,語音質量評估結果包括以下至少一項:是否出現(xiàn)單通、是否出現(xiàn)斷續(xù)、單通的占比、或者斷續(xù)的占比;其中,單通的占比用于指示至少一個時間段內的第二語音包中,出現(xiàn)單通的第二語音包的占比,斷續(xù)的占比用于指示至少一個時間段內的第二語音包中,出現(xiàn)斷續(xù)的第二語音包的占比。
17、第三方面,本技術提供了一種語音質量評估裝置,該裝置包括:處理器和通信接口;通信接口和處理器耦合,處理器用于運行計算機程序或指令,以實現(xiàn)如第一方面和第一方面的任一種可能的實現(xiàn)方式中所描述的語音質量評估方法。
18、第四方面,本技術提供了一種計算機可讀存儲介質,計算機可讀存儲介質中存儲有指令,當指令在終端上運行時,使得終端執(zhí)行如第一方面和第一方面的任一種可能的實現(xiàn)方式中所描述的語音質量評估方法。
19、第五方面,本技術提供一種包含指令的計算機程序產(chǎn)品,當計算機程序產(chǎn)品在語音質量評估裝置上運行時,使得語音質量評估裝置執(zhí)行如第一方面和第一方面的任一種可能的實現(xiàn)方式中所描述的語音質量評估方法。
20、第六方面,本技術提供一種芯片,芯片包括處理器和通信接口,通信接口和處理器耦合,處理器用于運行計算機程序或指令,以實現(xiàn)如第一方面和第一方面的任一種可能的實現(xiàn)方式中所描述的語音質量評估方法。
21、具體的,本技術中提供的芯片還包括存儲器,用于存儲計算機程序或指令。
22、上述技術方案至少帶來以下有益效果:獲取第一語音包,對第一語音包進行處理,確定第一語音包的特征,并將第一語音包的特征輸入到語音質量評估模型中,確定第一語音包的語音質量評估結果。本技術實施例所記載的語音質量評估方法是基于語音質量評估模型確定第一語音包的語音質量評估結果,相較于通用技術中采用固定的門限值來評估語音包的語音質量,提高了語音包的語音質量評估的精確性。并且,由于輸入到語音質量評估模型中的第一語音包的特征可以指示第一語音包對應的用戶的特征和/或第一語音包對應的音頻流的語音特征,因此基于第一語音包的特征確定第一語音包的語音質量評估結果,不僅考慮了語音本身的特征,還考慮了對應的用戶的特征,進一步提高了語音包的語音質量評估的精確性。