午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

使用語音識別來檢測非語音性音頻的計算機系統(tǒng)的制作方法

文檔序號:9650674閱讀:497來源:國知局
使用語音識別來檢測非語音性音頻的計算機系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本公開涉及計算機音頻領(lǐng)域,包括在音頻和視頻會議中的應(yīng)用。
【背景技術(shù)】
[0002]計算機音頻應(yīng)用出于各種目的使用自動音頻檢測。在一個示例中,視頻會議系統(tǒng)使用音頻檢測來識別與會者之間的積極發(fā)言者,將對積極發(fā)言者的識別用于向其他發(fā)言者提供積極發(fā)言者的視覺表示。這種表示可以采用基于文本的消息或通知的形式,諸如,“與會者X正在發(fā)言”,和/或它可以涉及對用于顯示來自與會者的攝像機視圖(“web cam”饋送)的窗口進行一些處理。例如,可以相對其他與會者的窗口,強調(diào)或放大當(dāng)前發(fā)言者的窗口,從而幫助將與會者的注意力在視覺上引導(dǎo)到當(dāng)前發(fā)言者。

【發(fā)明內(nèi)容】

[0003]可以通過改善自動音頻檢測來改善計算機音頻應(yīng)用。在一個示例中,視頻會議系統(tǒng)可以針對來自與會者的音頻流啟用音量檢測或其他自動音頻檢測,以便識別發(fā)言者。如果音頻音量大于一定閾值,則將該與會者識別為發(fā)言者,否則將該與會者識別為非發(fā)言者。這種自動檢測用于驅(qū)動被設(shè)置為視頻會議操作的一部分的視覺指示。
[0004]現(xiàn)有的自動音頻檢測可能存在限制,導(dǎo)致在計算機音頻應(yīng)用中出現(xiàn)一些問題。在視頻會議的情況下,例如,即使視頻會議的與會者不是真正地在發(fā)言,可能仍將該與會者識別為發(fā)言者。由于在與會者的音頻流中存在非語音性的音頻,可能出現(xiàn)上述現(xiàn)象,這是由于與會者的麥克風(fēng)提取了與會者環(huán)境中的非語音性的聲音。在一些情況下,該聲音可以是一些類型的背景聲,不可由與會者直接控制,諸如,喧嘩噪聲、車輛噪聲等。在其他情況下,這可能因為與會者的可聽活動,諸如,將紙拖動到喇叭擴音器麥克風(fēng)附近。無論在哪種情況下,傳統(tǒng)的發(fā)言者檢測原理可能無法準(zhǔn)確地辨識這種非語音性聲音和真實語音,因此,可能提供不可靠的發(fā)言者識別。
[0005]公開了一種能夠在計算機音頻應(yīng)用中更準(zhǔn)確地辨識音頻流中的語音性和非語音性音頻的技術(shù)。在一個示例中,在視頻會議的背景下描述了所述技術(shù)并將該技術(shù)應(yīng)用于會議與會者的音頻流。將改善后的辨識用作對會議的用戶接口的輸入,例如,以便改善識別發(fā)言者和非發(fā)言者的任何圖形指示的準(zhǔn)確性,改善用戶體驗。此外,所述辨識可以用于開始一些類型的補救行為,諸如,向?qū)⑵湟纛l流識別為含有非語音性音頻的與會者提供通知。提醒該與會者采取一些步驟來在與會者的控制下減小非語音性音頻。因此,通過準(zhǔn)確并清楚地識別非語音性音頻的源,所述系統(tǒng)提供質(zhì)量更好的視頻會議。
[0006]更具體地,公開了一種操作視頻會議系統(tǒng)的方法,所述方法包括:將音頻檢測和語音識別應(yīng)用于輸入的音頻流,以便產(chǎn)生相應(yīng)的音頻檢測信號和語音識別信號;向音頻檢測信號和語音識別信號應(yīng)用函數(shù),以便當(dāng)音頻檢測信號是有效的而語音識別信號是無效的時,產(chǎn)生用于標(biāo)識在輸入的音頻流中存在非語音性音頻的非語音性音頻檢測信號。所述方法還包括:基于非語音性音頻檢測信號的有效性,在計算機系統(tǒng)中執(zhí)行控制或指示行為。
[0007]在一個示例中,將所述技術(shù)用于在視頻會議中辨識來自與會者的音頻流集合的每個音頻流中的語音性和非語音性音頻。當(dāng)在音頻流中未識別出具有非零音量的語音時,檢測到非語音性音頻。視頻會議的圖形用戶接口用于反映音頻流中的語音性和非語音性音頻之間的辨識。所述操作包括(a)基于相應(yīng)音頻流中的語音的辨識,提供作為正發(fā)言的與會者的一個或更多個第一與會者的第一圖形標(biāo)識;以及(b)基于相應(yīng)音頻流中的非語音性音頻的辨識,提供作為非正發(fā)言的與會者的一個或更多個第二與會者的第二圖形標(biāo)識。
[0008]在一個實施例中,還可以采取補救行為,諸如,向與會者之一(例如,向會議組織者或直接向制造麻煩的與會者)發(fā)送通知,使制造麻煩的與會者能夠改變行為或環(huán)境以便減少非語音性音頻,進一步改善視頻會議中的用戶體驗。
【附圖說明】
[0009]根據(jù)以下結(jié)合附圖所示的對本發(fā)明特定實施例的描述,將更清楚上述和其他目的、特征和優(yōu)點,其中貫穿不同視圖,用相似的附圖標(biāo)記來表示相同的部件。
[0010]圖1是視頻會議系統(tǒng)的框圖;
[0011]圖2是硬件視角下的計算機的框圖;
[0012]圖3是對視頻會議的圖形用戶接口顯示的描述;
[0013]圖4是非語音性音頻檢測操作的流程圖;
[0014]圖5和6是不同結(jié)構(gòu)的視頻會議系統(tǒng)的框圖;以及
[0015]圖7是對視頻會議的圖形用戶接口顯示的描述。
【具體實施方式】
[0016]圖1示出了視頻會議系統(tǒng)形式的示例計算機系統(tǒng),所述視頻會議系統(tǒng)包括通過網(wǎng)絡(luò)14相互連接的會議服務(wù)器10和多個會議客戶端12。會議服務(wù)器10和會議客戶端12通常是計算機化的設(shè)備,執(zhí)行專用會議應(yīng)用軟件并在一些情況下還包括專用硬件。會議服務(wù)器10可以是諸如數(shù)據(jù)中心中的“刀片”計算機的服務(wù)器計算機,而客戶端計算機10通常是個人設(shè)備,諸如,個人計算機、膝上型計算機、平板計算機或智能電話。網(wǎng)絡(luò)14通??梢允侨魏晤愋偷臄?shù)據(jù)通信網(wǎng)絡(luò),用于在與會者之間傳送會議數(shù)據(jù),包括例如互聯(lián)網(wǎng)。
[0017]圖1的系統(tǒng)可以被稱作“客戶端-服務(wù)器”裝置,本領(lǐng)域技術(shù)人員應(yīng)認識到,所公開的技術(shù)可以用于其他裝置,包括所謂的“對等式”裝置,甚至可應(yīng)用于單個計算機應(yīng)用。
[0018]在操作中,會議客戶端12與會議服務(wù)器10建立連接和會議會話。每個會議客戶端12執(zhí)行向本地會議與會者或“出席者”提供圖形用戶接口的客戶端會議應(yīng)用,還用于向會議服務(wù)器10發(fā)送本地音頻和視頻輸入,并從會議服務(wù)器接收會議音頻和視頻流或反饋以便向本地出席者進行呈現(xiàn)。會議服務(wù)器對來自會議客戶端12的音頻和視頻流執(zhí)行合并或“混合”,以便創(chuàng)建回送給會議客戶端12的會議反饋。通常將音頻混合到向所有會議客戶端12分發(fā)的單個輸出通道,能夠使所有與會者聽到正發(fā)言的任何與會者。諸如來自本地攝像機的視頻流被分別拷貝到所有與會者,使每個與會者能夠看到所有其他與會者。所述系統(tǒng)還支持在會議客戶端之間共享文檔或其他應(yīng)用數(shù)據(jù),其中共享的項目的源被稱作“演示者” 16。對于這種共享,將窗口或類似用戶接口要素的內(nèi)容從演示者16發(fā)送到會議服務(wù)器10,其中可以復(fù)制所述內(nèi)容并將其提供給其他會議客戶端12,以便本地顯示。
[0019]圖2示出了從計算機硬件角度的物理計算機(諸如,會議服務(wù)器10或會議客戶端12)的示例配置。硬件包括通過數(shù)據(jù)互聯(lián)設(shè)備26 (諸如,一個或更多個高速數(shù)據(jù)總線)相互連接的一個或更多個處理器20、存儲器22和接口電路24。接口電路24提供到網(wǎng)絡(luò)14 (圖1)和其他外部設(shè)備/連接(EXT DEV)(諸如,視頻顯示、音頻電路和攝像機)的硬件連接。具有聯(lián)網(wǎng)存儲器22的處理器20還可以在文中被稱作“處理電路”。還可以存在本地存儲設(shè)備28,諸如,本地附連盤驅(qū)動器或閃存驅(qū)動器。在操作中,存儲器22存儲系統(tǒng)軟件(例如,操作系統(tǒng))的數(shù)據(jù)和指令以及一個或更多個應(yīng)用程序,其中由處理器20執(zhí)行所述應(yīng)用程序以便引起硬件以軟件限定的方式進行作用??梢詫④浖O(shè)置為存儲在非暫時性計算機可讀介質(zhì)上的計算機程序指令,諸如,磁盤或光盤、閃存等。因此,執(zhí)行會議應(yīng)用的指令的計算機硬件(諸如,文中所述)可以被稱作會議電路或會議組件,應(yīng)理解,這種電路或組件的集合全部都可以實現(xiàn),并彼此交互,作為本領(lǐng)域所熟知的執(zhí)行不同計算機程序的計算機處理硬件的一個或更多個集合。
[0020]圖3描述了會議客戶端12的圖形顯示30。示出了三種類型的窗口,包括會議控制(CNF CTL)窗口 32、一個或更多個客戶端攝像機觀看窗口(CLT x CAM) 34、以及共享的內(nèi)容窗口 36。對于非演示者的出席者,由會議應(yīng)用使用共享的內(nèi)容窗口 36,以便顯示演示者16共享的內(nèi)容。在一類實施例中,演示者16可以共享他/她的整個桌面,包括所有的圖標(biāo)、控制和窗口,在這種情況下,其他出席者的共享內(nèi)容窗口 36將示出共享桌面的拷貝。當(dāng)僅存在單個演示者16時,對演示者16的顯示可能不包括共享內(nèi)容窗口 36,演示者16可以直接觀看共享的內(nèi)容,作為演示者本地桌面的一部分。
[0021]圖形顯示可以以一個或多個方式提供關(guān)于會議的操作的信息。例如,會議控制窗口 32可以包括通知區(qū)域(N0TIF)38,用作顯示信息。在所示示例中,一個通知是將當(dāng)前發(fā)言者識別為“CLT 1”。還可以以其他方式進行對發(fā)言者的識別,諸如,通過向當(dāng)前發(fā)言者的攝像機觀看窗口 34應(yīng)用一些強調(diào)方式。在所示示例中,這種強調(diào)是黑體或其他增強邊框40的形式,同時針對未發(fā)言的與會者的攝像機觀看窗口 34保持常規(guī)或非增強邊界??梢允褂闷渌问降膹娬{(diào),諸如相對非發(fā)言者窗口 34放大發(fā)言者窗口 34,動態(tài)重排窗口 34以便將當(dāng)前發(fā)言者布置在一些預(yù)定位置(例如,在上部)等。
[0022]如上所述,會議系統(tǒng)通過改善實際發(fā)言者和產(chǎn)生非語音性音頻的與會者之間的辨識來改善性能。與現(xiàn)有系統(tǒng)相反,所公開的系統(tǒng)包括語音識別以及音頻檢測,并使用這些來將每個音頻流分為含有語音的音頻、靜默的音頻或非語音性音頻。然后,將這種分類用于更準(zhǔn)確地識別發(fā)言者,還可以將其用于針對檢測到的非語音性音頻采用一些形式的補救行為。
[0023]圖4示出了在相關(guān)部分中的操作。針對每個與會者的音頻流執(zhí)行步驟50。對于每個流,所述系統(tǒng)通過應(yīng)用音頻檢測和語音識別,來部分地辨識語音性音頻和非語音性音頻。音頻檢測提供關(guān)于是否存在一些形式的音頻的指示,從而指示與會者正產(chǎn)生一些類型的聲音(無論語音或非語音)。可以使用例如音量檢測(即,測量音頻信號的幅度并將其余幅度閾值進行比較),來進行音頻檢測。語音識別提供關(guān)于是否檢測到語音的指示。因此,可以直接地識別以下三個條件:
[0024]1.靜默(未檢測到音頻,S卩,幅度小于閾值)
[0025]2.語音(來自語音識別的語音輸出)
[0026]3.非語音聲音(檢測到音頻,其中沒有識別出語音)。
[0027]在步驟52,將步驟50中的辨識的結(jié)果用于操作會議GUI。最低限度,所述辨識可以相對非發(fā)言者提供對發(fā)言者的更可靠的識別。在現(xiàn)有系統(tǒng)中,可能錯誤地將產(chǎn)生一些類型的非語音性聲音的非發(fā)言者認為是發(fā)言者。在所公開的技術(shù)中,只有將其音頻識別為“語音”的與會者(上述#2)被識別為發(fā)言
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1