午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于詞比較的語(yǔ)音端點(diǎn)定位的制作方法

文檔序號(hào):9289046閱讀:402來(lái)源:國(guó)知局
基于詞比較的語(yǔ)音端點(diǎn)定位的制作方法
【專利說(shuō)明】基于詞比較的語(yǔ)音端點(diǎn)定位
[0001]相關(guān)串請(qǐng)的交叉引用
[0002]本申請(qǐng)要求于2014年4月23日提交的、申請(qǐng)?zhí)枮?1/983,025的美國(guó)專利申請(qǐng)的權(quán)益,其內(nèi)容通過(guò)引用并入。
技術(shù)領(lǐng)域
[0003]本公開(kāi)內(nèi)容總體上涉及語(yǔ)音識(shí)別,并且一個(gè)特定實(shí)現(xiàn)方式涉及對(duì)語(yǔ)音進(jìn)行端點(diǎn)定位(endpointing)。
【背景技術(shù)】
[0004]自然語(yǔ)言處理系統(tǒng)通常使用端點(diǎn)器(endpointer)來(lái)確定用戶何時(shí)開(kāi)始以及結(jié)束說(shuō)話。一些傳統(tǒng)的端點(diǎn)器在確定話語(yǔ)何時(shí)開(kāi)始或者結(jié)束時(shí)對(duì)詞之間的停頓的持續(xù)時(shí)間進(jìn)行評(píng)價(jià)。例如,如果用戶說(shuō)“what is〈長(zhǎng)停頓〉for dinner”,則傳統(tǒng)的端點(diǎn)器可以在長(zhǎng)停頓處分割話音輸入,并且可以指令自然語(yǔ)言處理系統(tǒng)嘗試處理不完整的短語(yǔ)“what is”,而不是處理完整的短語(yǔ)“what is for dinner”。如果端點(diǎn)器為話音輸入指定了錯(cuò)誤的開(kāi)始點(diǎn)或者結(jié)束點(diǎn),則使用自然語(yǔ)言處理系統(tǒng)處理語(yǔ)音的結(jié)果可能是錯(cuò)誤的或者不符合需要的。

【發(fā)明內(nèi)容】

[0005]根據(jù)在本說(shuō)明書(shū)中所描述的主題內(nèi)容的創(chuàng)新的方面,一種計(jì)算設(shè)備可以接收由用戶說(shuō)出的話語(yǔ)的話音輸入,并且可以使用連續(xù)語(yǔ)音識(shí)別器來(lái)遞增地轉(zhuǎn)錄話語(yǔ)。計(jì)算設(shè)備比較遞增地識(shí)別的轉(zhuǎn)錄與來(lái)自文本樣本的匯集(諸如,由其他用戶之前提交給搜索引擎的搜索查詢的匯集)中的文本樣本進(jìn)行比較,以確定轉(zhuǎn)錄更可能表示完整的查詢還是不完整的查詢。
[0006]根據(jù)一個(gè)方式,確定轉(zhuǎn)錄更可能表示完整的查詢還是不完整的查詢包括:確定與轉(zhuǎn)錄匹配并且不包括任何附加的詞語(yǔ)(term)的文本樣本的數(shù)量,并且確定與轉(zhuǎn)錄匹配并且包括一個(gè)或者多個(gè)附加的詞語(yǔ)的文本樣本的數(shù)量。計(jì)算設(shè)備可以然后基于那兩個(gè)數(shù)量確定比率并且比較確定的比率與閾值比率。如果確定的比率不滿足閾值比率,則計(jì)算設(shè)備將話語(yǔ)分類為很可能不完整的話語(yǔ)。如果確定的比率滿足閾值比率,則計(jì)算設(shè)備將話語(yǔ)分類為非很可能不完整的話語(yǔ)。
[0007]基于將話語(yǔ)分類為很可能完整的話語(yǔ)或者不完整的話語(yǔ),設(shè)備可以對(duì)話音輸入進(jìn)行端點(diǎn)定位,或者可以去激活麥克風(fēng)或者將麥克風(fēng)維持在激活狀態(tài)。如果話語(yǔ)被分類為很可能不完整的話語(yǔ),則設(shè)備可以將麥克風(fēng)維持在激活狀態(tài)以接收附加的話語(yǔ),或者可以在對(duì)話音輸入進(jìn)行端點(diǎn)定位之前進(jìn)一步等待。如果話語(yǔ)被分類為非很可能不完整的話語(yǔ),則設(shè)備可以去激活麥克風(fēng)并且處理話語(yǔ),或者可以在對(duì)話音輸入進(jìn)行端點(diǎn)定位之前不進(jìn)行進(jìn)一步等待。
[0008]—般來(lái)說(shuō),在本說(shuō)明書(shū)中所描述的主題內(nèi)容的另一個(gè)創(chuàng)新的方面可以被實(shí)施為方法,這些方法包括以下動(dòng)作:獲得話語(yǔ)的轉(zhuǎn)錄;將文本樣本的匯集中的(i)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且(ii)不包括任何附加的詞語(yǔ)的文本樣本的數(shù)量確定為第一值;將文本樣本的匯集中的(i)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且(ii)包括一個(gè)或者多個(gè)附加的詞語(yǔ)的文本樣本的數(shù)量確定為第二值;并且至少基于比較第一值與第二值來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)或者非很可能不完整的話語(yǔ)。
[0009]這些和其他實(shí)施例可以各自可選地包括以下特征中的一個(gè)或者多個(gè)特征。將文本樣本的匯集中的(i)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且(ii)不包括任何附加的詞語(yǔ)的文本樣本的數(shù)量確定為第一值的動(dòng)作包括:在每個(gè)文本樣本中確定與轉(zhuǎn)錄匹配的詞語(yǔ)以與在轉(zhuǎn)錄中相同的順序出現(xiàn)。將文本樣本的匯集中的(i)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且(ii)包括一個(gè)或者多個(gè)附加的詞語(yǔ)的文本樣本的數(shù)量確定為第二值的動(dòng)作包括:在每個(gè)文本樣本中確定與轉(zhuǎn)錄匹配的詞語(yǔ)在每個(gè)文本樣本的前綴處出現(xiàn)。
[0010]至少基于比較第一值與第二值來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)或者非很可能不完整的話語(yǔ)的動(dòng)作包括:確定第一值與第二值的比率;確定比率滿足閾值比率;并且基于確定比率滿足閾值比率來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)。至少基于比較第一值與第二值來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)或者非很可能不完整的話語(yǔ)的動(dòng)作包括:將話語(yǔ)分類為很可能不完整的話語(yǔ);并且基于將話語(yǔ)分類為很可能不完整的話語(yǔ)來(lái)將麥克風(fēng)維持在激活狀態(tài)以接收附加的話語(yǔ)。
[0011]至少基于比較第一值與第二值來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)或者非很可能不完整的話語(yǔ)的動(dòng)作包括:將話語(yǔ)分類為非很可能不完整的話語(yǔ);并且基于將話語(yǔ)分類為非很可能不完整的話語(yǔ)來(lái)去激活麥克風(fēng)。這些動(dòng)作進(jìn)一步包括接收指示話語(yǔ)完整的數(shù)據(jù);其中至少基于比較第一值與第二值來(lái)將話語(yǔ)分類為很可能不完整的話語(yǔ)或者非很可能不完整的話語(yǔ)包括:將話語(yǔ)分類為很可能不完整的話語(yǔ);并且基于將話語(yǔ)分類為很可能不完整的話語(yǔ)來(lái)覆蓋指示話語(yǔ)完整的數(shù)據(jù)。
[0012]這一方面的其他實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、裝置以及記錄在計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,每個(gè)均被配置為執(zhí)行該方法的操作。
[0013]一般來(lái)說(shuō),在本說(shuō)明書(shū)中所描述的主題內(nèi)容的另一個(gè)創(chuàng)新的方面可以被實(shí)施為方法,這些方法包括以下動(dòng)作:獲得話語(yǔ)的轉(zhuǎn)錄;確定在文本樣本的匯集中,與話語(yǔ)所匹配的相比,話語(yǔ)是更經(jīng)常地與(i)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且不包括任何附加的詞語(yǔ)的文本樣本匹配,還是更經(jīng)常地與(ii)包括與轉(zhuǎn)錄匹配的詞語(yǔ)并且包括一個(gè)或者多個(gè)附加的詞語(yǔ)的文本樣本匹配;并且基于該確定來(lái)確定話語(yǔ)是否很可能不完整。
[0014]這一方面的其他實(shí)施例包括對(duì)應(yīng)的系統(tǒng)、裝置以及記錄在計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,每個(gè)均被配置為執(zhí)行該方法的操作。
[0015]在本說(shuō)明書(shū)中所描述的主題內(nèi)容的特定實(shí)施例可以被實(shí)施以使得實(shí)現(xiàn)以下優(yōu)點(diǎn)中的一個(gè)或者多個(gè)優(yōu)點(diǎn)。用戶可以使用計(jì)算設(shè)備的話音輸入能力并且以對(duì)用戶來(lái)說(shuō)舒適的速度說(shuō)話。話語(yǔ)可以在話語(yǔ)的預(yù)期的結(jié)束處被端點(diǎn)定位,從而得到更精確的或更希望的自然語(yǔ)言處理輸出,并且得到自然語(yǔ)言處理系統(tǒng)的更快的處理。在背景噪聲存在的情況下,話語(yǔ)可以在話語(yǔ)的預(yù)期的結(jié)束處被端點(diǎn)定位。
[0016]在本說(shuō)明書(shū)中所描述的主題內(nèi)容的一個(gè)或者多個(gè)實(shí)施例的細(xì)節(jié)在以下的附圖和描述中被闡明。主題內(nèi)容的其他特征、方面和優(yōu)點(diǎn)將從描述、附圖以及權(quán)利要求書(shū)變得顯而易見(jiàn)。
【附圖說(shuō)明】
[0017]圖1A至圖1C是話語(yǔ)和在對(duì)話語(yǔ)是否很可能不完整進(jìn)行分類中使用的示例信號(hào)的示圖。
[0018]圖2是將話語(yǔ)分類為很可能完整或者很可能不完整示例系統(tǒng)的示圖。
[0019]圖3是用于對(duì)話語(yǔ)是否很可能不完整進(jìn)行分類的示例過(guò)程的示圖。
[0020]在各個(gè)附圖中相同的附圖標(biāo)記和標(biāo)示指示相同的元件。
【具體實(shí)施方式】
[0021]圖1是話語(yǔ)和在對(duì)話語(yǔ)是否很可能不完整進(jìn)行分類中使用的示例信號(hào)的示圖100。一般來(lái)說(shuō),示圖100圖示了在計(jì)算設(shè)備110處理傳入音頻輸入102時(shí)由計(jì)算設(shè)備110生成或者檢測(cè)到的信號(hào)102至108。計(jì)算設(shè)備110通過(guò)計(jì)算設(shè)備的麥克風(fēng)或者其他音頻輸入設(shè)備來(lái)接收音頻輸入102,并且對(duì)音頻輸入102是很可能完整的話語(yǔ)還是很可能不完整的話語(yǔ)進(jìn)行分類。
[0022]計(jì)算設(shè)備110接收音頻輸入102并且以預(yù)先指定的頻率和分辨率對(duì)音頻輸入102采樣。例如,計(jì)算設(shè)備110可以在8kHz、16kHz、44.1kHz或任何其他采樣率對(duì)音頻輸入102采樣,并且分辨率可以是16比特、32比特或任何其他分辨率。音頻輸入102圖示了基于來(lái)自用戶114的話語(yǔ)112的采樣的模擬數(shù)據(jù)。在圖1A中所圖示的示例中,用戶114對(duì)著計(jì)算設(shè)備110說(shuō)出“What is…the meaning of life ? ”計(jì)算設(shè)備110可以記錄并且存儲(chǔ)對(duì)應(yīng)于話語(yǔ)112的音頻輸入102。
[0023]計(jì)算設(shè)備110轉(zhuǎn)錄由用戶114說(shuō)出的話語(yǔ)112。在一些實(shí)現(xiàn)方式中,計(jì)算設(shè)備110使用運(yùn)行自動(dòng)語(yǔ)音識(shí)別(ASR)軟件的計(jì)算設(shè)備110的處理器來(lái)轉(zhuǎn)錄話語(yǔ)112的詞。例如,計(jì)算設(shè)備110可以在計(jì)算設(shè)備110本地確定初始部分音頻輸入102包含詞語(yǔ)120 “what”。隨著計(jì)算設(shè)備110從用戶接收話語(yǔ)112,ASR軟件接收音頻輸入102。隨著ASR軟件在音頻輸入102中識(shí)別詞語(yǔ),ASR軟件繼而將提供該詞語(yǔ)以用于向計(jì)算設(shè)備110輸出。計(jì)算設(shè)備110記錄在ASR軟件返回ASR軟件識(shí)別的詞語(yǔ)之間的時(shí)間量。例如,ASR軟件可以返回詞語(yǔ)120 “what”,然后一百毫秒之后返回詞語(yǔ)122 “ is”,并且然后兩百毫秒之后返回詞語(yǔ)124 “the”。計(jì)算設(shè)備110記錄詞語(yǔ)122 “is”在一百毫秒之后跟隨詞語(yǔ)120 “what”并且詞語(yǔ)124 “the”在兩百毫秒之后跟隨詞語(yǔ)122 “is”。在一些實(shí)現(xiàn)方式中,通過(guò)網(wǎng)絡(luò)可訪問(wèn)的服務(wù)器可以運(yùn)行ASR軟件。在這種情況下,計(jì)算設(shè)備在網(wǎng)絡(luò)上向服務(wù)器傳輸音頻輸入102,從服務(wù)器接收詞語(yǔ)并且記錄在服務(wù)器返回詞語(yǔ)之間的時(shí)間量。
[0024]隨著計(jì)算設(shè)備110轉(zhuǎn)錄話語(yǔ)112的詞語(yǔ)120至130,計(jì)算設(shè)備110從通用端點(diǎn)器接收通用端點(diǎn)器信號(hào)104。計(jì)算設(shè)備110向通用端點(diǎn)器提供從ASR軟件接收的詞語(yǔ)和在每個(gè)詞語(yǔ)之間的記錄的時(shí)間。通用端點(diǎn)器比較記錄的時(shí)間與閾值。如果在兩個(gè)詞語(yǔ)之間的記錄的時(shí)間中的一個(gè)記錄的時(shí)間滿足閾值,則通用端點(diǎn)器在將端點(diǎn)標(biāo)識(shí)為在兩個(gè)詞語(yǔ)之間。例如,閾值可以是一百五十毫秒。通用端點(diǎn)器比較在詞語(yǔ)120 “what”與詞語(yǔ)122 “is”之間的一百毫秒的時(shí)間。因?yàn)橐话俸撩胄∮谝话傥迨撩氲拈撝?,所以通用端點(diǎn)器不在詞語(yǔ)120 “what”與詞語(yǔ)122 “is”之間添加端點(diǎn)。通用端點(diǎn)器也比較在詞語(yǔ)122 “is”與詞語(yǔ)124 “the”之間的兩百毫秒的時(shí)間。因?yàn)閮砂俸撩氪笥谝话傥迨撩氲拈撝?,所以通用端點(diǎn)器在詞語(yǔ)122 “is”與詞語(yǔ)124 “the”之間添加端點(diǎn)。通用端點(diǎn)器信號(hào)104將端點(diǎn)圖示為在活躍的信號(hào)與不活躍的信號(hào)之間的過(guò)渡。通用端點(diǎn)器信號(hào)在詞語(yǔ)120 “what”與詞語(yǔ)122 “is”之間活躍,并且在詞語(yǔ)122 “is”與詞語(yǔ)124 “the”之間變成不活躍。
[0025]在一些實(shí)現(xiàn)方式中,通用端點(diǎn)器等待在詞語(yǔ)的結(jié)束之后、在通用端點(diǎn)器標(biāo)識(shí)端點(diǎn)之前的時(shí)間的特定時(shí)段。在每個(gè)詞語(yǔ)從ASR軟件被接收之后或者在通用端點(diǎn)器接收到ASR標(biāo)識(shí)了詞語(yǔ)的指示之后,通用端點(diǎn)器進(jìn)行等待。如果等待時(shí)間滿足閾值,等通用端點(diǎn)器標(biāo)識(shí)端點(diǎn)。例如,閾值可以是一百五十毫秒。如果通用端點(diǎn)器接收ASR軟件已經(jīng)標(biāo)識(shí)了詞語(yǔ)(諸如詞語(yǔ)120“what”)的指示,則通用端點(diǎn)器將開(kāi)始定時(shí)器。一百毫秒之后,通用端點(diǎn)器接收ASR軟件已經(jīng)標(biāo)識(shí)了另一個(gè)詞語(yǔ)(諸如詞語(yǔ)122 “is”)的指示。因?yàn)橥ㄓ枚它c(diǎn)器的定時(shí)器沒(méi)有達(dá)到一百五十毫秒的閾值,所以通用端點(diǎn)器在詞
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1