本申請涉及人工智能,尤其涉及一種演奏樂曲的評分方法、裝置、電子設備、存儲介質及計算機程序產品。
背景技術:
1、樂器比賽或考試過程中,相關技術基于相同樂譜,將考生的演奏樂曲與標準樂曲二者的樂器數字接口(midi,musical?instrument?digital?interface)序列進行比較,從而得到演奏樂曲的自動評分,但midi序列的采集需要特定硬件,因此,自動評分的技術難度大、處理效率低。
技術實現(xiàn)思路
1、為解決相關技術問題,本申請實施例提供一種演奏樂曲的評分方法、裝置、電子設備、存儲介質及計算機程序產品。
2、本申請實施例的技術方案是這樣實現(xiàn)的:
3、本申請實施例提供了一種演奏樂曲的評分方法,所述方法包括:
4、調用卷積循環(huán)神經網絡對第一音頻信號的對數梅爾譜特征進行處理,得到第一序列;所述第一音頻信號表征演奏第一樂譜產生的音頻信號;所述第一序列表征基于所述第一音頻信號確定出的所述第一樂譜中每個音符對應的一個或多個第一特征的預測值;所述第一特征用于描述演奏表現(xiàn)相關的特征;
5、調用轉換器(transformer)網絡對第二序列進行處理,得到第三序列;所述第二序列表征基于第四序列確定出的所述第一樂譜中每個音符對應的所述一個或多個第一特征的特征值;所述第四序列是基于所述第一樂譜生成的midi序列;所述第三序列表征所述第四序列的所述一個或多個第一特征的后驗概率特征序列;
6、將所述第一序列與所述第三序列進行對齊處理,得到第五序列;
7、基于所述第五序列中的所述一個或多個第一特征的特征值,計算得到所述第一音頻信號的評分。
8、上述方案中,所述一個或多個第一特征用于描述對應音符的演奏觸發(fā)和/或演奏停止和/或演奏力度和/或演奏持續(xù)狀態(tài)。
9、上述方案中,所述卷積循環(huán)神經網絡包含:
10、8個卷積層,所述8個卷積層用于對所述對數梅爾譜特征提取高層抽象特征;以及,
11、2個雙向循環(huán)神經網絡層,所述2個雙向循環(huán)神經網絡層用于學習所述對數梅爾譜特征的長時依賴性。
12、上述方案中,所述調用transformer網絡對第二序列進行處理,得到第三序列,包括:
13、調用transformer網絡的嵌入層對所述第二序列進行處理,編碼得到每類第一特征對應的第六序列;每個第六序列表征所述第一樂譜中所有音符在對應的第一特征上的特征值;
14、調用transformer網絡的編碼器對編碼得到的所有第六序列進行處理,得到所述第三序列。
15、上述方案中,所述將所述第一序列與所述第三序列進行對齊處理,得到第五序列,包括:
16、依序調用快速動態(tài)(fastdtw,fast?dynamic?time?warping)算法、規(guī)整路徑(warping?path)和插值算法,對所述第一序列與所述第三序列進行對齊處理,得到第五序列。
17、上述方案中,所述基于所述第五序列中的所述一個或多個第一特征的特征值,計算得到所述第一音頻信號的評分,包括:
18、對所述第五序列中的所述一個或多個第一特征的特征值與第三序列進行分數校準處理,得到與每個第一特征對應的第二特征,所述第二特征表征第一音頻信號與第四序列中對應的每個第一特征的匹配程度;
19、基于所述第二特征,得到所述第一音頻信號的評分。
20、本申請實施例還提供了一種演奏樂曲的評分裝置,包括:
21、第一調用單元,用于調用卷積循環(huán)神經網絡對第一音頻信號的對數梅爾譜特征進行處理,得到第一序列;所述第一音頻信號表征演奏第一樂譜產生的音頻信號;所述第一序列表征基于所述第一音頻信號確定出的所述第一樂譜中每個音符對應的一個或多個第一特征的預測值;所述第一特征用于描述演奏表現(xiàn)相關的特征;
22、第二調用單元,用于調用transformer網絡對第二序列進行處理,得到第三序列;所述第二序列表征基于第四序列確定出的所述第一樂譜中每個音符對應的所述一個或多個第一特征的特征值;所述第四序列是基于所述第一樂譜生成的midi序列;所述第三序列表征所述第四序列的所述一個或多個第一特征的后驗概率特征序列;
23、對齊單元,用于將所述第一序列與所述第三序列進行對齊處理,得到第五序列;
24、評分單元,用于基于所述第五序列中的所述一個或多個第一特征的特征值,計算得到所述第一音頻信號的評分。
25、本申請實施例還提供了一種電子設備,包括:
26、第一處理器及第一通信接口;其中,
27、所述第一處理器,用于:
28、調用卷積循環(huán)神經網絡對第一音頻信號的對數梅爾譜特征進行處理,得到第一序列;所述第一音頻信號表征演奏第一樂譜產生的音頻信號;所述第一序列表征基于所述第一音頻信號確定出的所述第一樂譜中每個音符對應的一個或多個第一特征的預測值;所述第一特征用于描述演奏表現(xiàn)相關的特征;
29、調用transformer網絡對第二序列進行處理,得到第三序列;所述第二序列表征基于第四序列確定出的所述第一樂譜中每個音符對應的所述一個或多個第一特征的特征值;所述第四序列是基于所述第一樂譜生成的midi序列;所述第三序列表征所述第四序列的所述一個或多個第一特征的后驗概率特征序列;
30、將所述第一序列與所述第三序列進行對齊處理,得到第五序列;以及
31、基于所述第五序列中的所述一個或多個第一特征的特征值,計算得到所述第一音頻信號的評分。
32、本申請實施例還提供了一種電子設備,包括:第一處理器和用于存儲能夠在處理器上運行的計算機程序的第一存儲器,
33、其中,所述第一處理器用于運行所述計算機程序時,執(zhí)行上述任一方法的步驟。
34、本申請實施例還提供了一種存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一方法的步驟。
35、本申請實施例還提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述任一方法的步驟。
36、在本申請實施例中,調用卷積循環(huán)神經網絡對演奏者演奏的第一音頻信號的對數梅爾譜特征進行處理,得到第一序列;再調用transformer網絡對基于第一樂譜生成的標準音頻的第二序列進行處理,得到第三序列,其中,標準音頻為midi序列;將第一序列與第三序列進行對齊處理,得到在特征空間上與標準音頻對齊的第五序列,然后基于第五序列中的一個或多個第一特征的特征值,計算得到第一音頻信號的評分,相比于相關技術,不需要使用特定硬件在現(xiàn)場采集演奏音頻的midi序列,也能夠將演奏音頻與標準音頻在同一特征空間進行比較,得到評分結果,從而降低了自動評分的技術難度,提升了處理效率。
1.一種演奏樂曲的評分方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述一個或多個第一特征用于描述對應音符的演奏觸發(fā)和/或演奏停止和/或演奏力度和/或演奏持續(xù)狀態(tài)。
3.根據權利要求1所述的方法,其特征在于,所述卷積循環(huán)神經網絡包含:
4.根據權利要求1所述的方法,其特征在于,所述調用轉換器transformer網絡對第二序列進行處理,得到第三序列,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述第一序列與所述第三序列進行對齊處理,得到第五序列,包括:
6.根據權利要求2所述的方法,其特征在于,所述基于所述第五序列中的所述一個或多個第一特征的特征值,計算得到所述第一音頻信號的評分,包括:
7.一種演奏樂曲的評分裝置,其特征在于,包括:
8.一種電子設備,其特征在于,包括:第一處理器及第一通信接口;其中,
9.一種電子設備,其特征在于,包括:第一處理器和用于存儲能夠在處理器上運行的計算機程序的第一存儲器,
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至6任一項所述方法的步驟。
11.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執(zhí)行時實現(xiàn)權利要求1至6任一項所述方法的步驟。