用于生成文本的神經(jīng)網(wǎng)絡的制作方法

文檔序號：39726218發(fā)布日期：2024-10-22 13:25閱讀：8來源：國知局

至少一個實施例涉及使用諸如語音識別任務的持續(xù)時間的處理。例如，至少一個實施例涉及用于使用一個或更多個神經(jīng)網(wǎng)絡至少部分地基于一個或更多個預測的符號和持續(xù)時間來生成文本的處理器或計算設備。在至少一個實施例中，一種處理器包括一個或更多個電路，該一個或更多個電路用于使用一個或更多個神經(jīng)網(wǎng)絡以至少部分地基于包含音頻信息的僅音頻幀來生成文本。

背景技術：

1、使用神經(jīng)網(wǎng)絡來處理音頻信號的每個幀會使用大量的存儲器、時間或計算資源。例如，神經(jīng)網(wǎng)絡可以接收5秒的音頻記錄并使用10毫秒的幀速率，結(jié)果是500個幀作為神經(jīng)網(wǎng)絡的輸入，其中這500個幀用于推理文本。作為另一示例，神經(jīng)網(wǎng)絡可接收5秒的音頻記錄并使用1毫秒的幀速率，結(jié)果是5000個幀作為神經(jīng)網(wǎng)絡的輸入，其中這5000個幀用于推理文本。因為神經(jīng)網(wǎng)絡在處理音頻信號時會使用音頻信號的每個幀，所以處理時間、存儲器和計算資源可能是大量的。因此，可以改善用于利用神經(jīng)網(wǎng)絡處理音頻信號的存儲器、時間或計算資源的量。

技術實現(xiàn)思路

技術特征：

1.一種處理器，包括：

2.如權(quán)利要求1所述的處理器，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

3.如權(quán)利要求1所述的處理器，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

4.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡用于使用用于預測在推理時要跳過的一個或更多個幀的預測的持續(xù)時間和先前預測的文本來生成文本。

5.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡包括變換器神經(jīng)網(wǎng)絡，所述變換器神經(jīng)網(wǎng)絡用于預測在推理時要跳過的幀的數(shù)量。

6.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡包括變換器神經(jīng)網(wǎng)絡，所述變換器神經(jīng)網(wǎng)絡用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。

7.如權(quán)利要求1所述的處理器，其中所述一個或更多個神經(jīng)網(wǎng)絡包括一個或更多個解碼器、編碼器和用于生成預測的持續(xù)時間的聯(lián)合網(wǎng)絡層。

8.一種系統(tǒng)，包括：

9.如權(quán)利要求8所述的系統(tǒng)，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

10.如權(quán)利要求8所述的系統(tǒng)，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

11.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡用于使用用于預測在推理時要跳過的一個或更多個幀的預測的持續(xù)時間和先前預測的文本來生成文本。

12.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡包括變換器神經(jīng)網(wǎng)絡，所述變換器神經(jīng)網(wǎng)絡用于預測在推理時要跳過的幀的數(shù)量。

13.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡包括變換器神經(jīng)網(wǎng)絡，所述變換器神經(jīng)網(wǎng)絡用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。

14.如權(quán)利要求8所述的系統(tǒng)，其中所述一個或更多個神經(jīng)網(wǎng)絡包括一個或更多個解碼器、編碼器和用于生成預測的持續(xù)時間的聯(lián)合網(wǎng)絡層。

15.一種方法，包括：

16.如權(quán)利要求15所述的方法，其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。

17.如權(quán)利要求15所述的方法，其中所述音頻信息包括一個或更多個符號，并且所述一個或更多個符號是空白的或者不是空白的。

18.如權(quán)利要求15所述的方法，進一步包括：使用用于預測在推理時要跳過的一個或更多個幀的預測的持續(xù)時間和先前預測的文本來生成文本。

19.如權(quán)利要求15所述的方法，其中所述一個或更多個神經(jīng)網(wǎng)絡包括變換器神經(jīng)網(wǎng)絡，所述變換器神經(jīng)網(wǎng)絡用于預測在推理時要跳過的幀的數(shù)量。

20.如權(quán)利要求15所述的方法，其中所述一個或更多個神經(jīng)網(wǎng)絡包括一個或更多個解碼器、編碼器和用于生成預測的持續(xù)時間的聯(lián)合網(wǎng)絡層。

技術總結(jié)
本發(fā)明公開了用于生成文本的神經(jīng)網(wǎng)絡，具體公開了用于從音頻生成文本的裝置、系統(tǒng)和技術。在至少一個實施例中，一種包括電路的處理器使用一個或更多個神經(jīng)網(wǎng)絡以至少部分地基于包括音頻信息的音頻幀來生成文本。在至少一個實施例中，一種包括電路的處理器使用一個或更多個神經(jīng)網(wǎng)絡以至少部分地基于包括音頻信息的僅音頻幀來生成文本。

技術研發(fā)人員：許海南,B·金斯伯格
受保護的技術使用者：輝達公司
技術研發(fā)日：
技術公布日：2024/10/21

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：許海南,B·金斯伯格
技術所有人：輝達公司
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

用于生成文本的神經(jīng)網(wǎng)絡的制作方法