在確定動作中使用非言語通信的制作方法
【專利說明】
【背景技術(shù)】
[0001]言語通信和其他直接輸入可以被用于多種多樣的不同應(yīng)用。例如,在與生產(chǎn)力應(yīng)用、游戲和/或一些其他應(yīng)用交互時,可以使用語音輸入和其他直接輸入方法。這些系統(tǒng)可以使用不同類型的直接輸入,例如從用戶所接收的語音、文本和/或手勢。創(chuàng)建解釋并響應(yīng)用戶直接輸入的系統(tǒng)可以是有挑戰(zhàn)性的。
【發(fā)明內(nèi)容】
[0002]本
【發(fā)明內(nèi)容】
被提供來以簡化的形式來引入概念的選擇,所述概念的選擇在下文【具體實施方式】中將會進一步被描述。本
【發(fā)明內(nèi)容】
不是旨在標(biāo)識所要求保護的主題的關(guān)鍵特征和必要特征,也不是旨在被用來幫助確定要求保護的主題的范圍。
[0003]當(dāng)確定要響應(yīng)于接收的用戶輸入而執(zhí)行的動作時,使用非言語通信(例如,不是文字(words)本身,而只是語音的行為和元素)。接收的輸入包括直接輸入(例如,語音、文本、手勢)和間接輸入(例如,非言語通信)。非言語通信包括諸如肢體語言、面部表情、呼吸速率、心跳速率以及人聲提示(vocal cue)(例如,韻律提示以及聲學(xué)提示)等之類的提示(cue),但是不包括文字本身。不同的非言語(nonverbal)通信提示被監(jiān)控以便將所執(zhí)行的動作個性化??梢曰谒邮盏囊粋€或多個間接輸入(例如,非言語提示)來調(diào)整指定要執(zhí)行的動作(例如,“執(zhí)行動作I”)的直接輸入。另一個動作可以響應(yīng)于間接輸入而被執(zhí)行。例如,如果非言語提示就所執(zhí)行的動作指示挫折,則可以執(zhí)行修正的動作和/或請求來自用戶的澄清??梢詫⒑啓n與用戶相關(guān)聯(lián)以便使用與用戶相關(guān)聯(lián)的非言語提示來確定由系統(tǒng)所提供的響應(yīng)。例如,用于第一用戶的簡檔可以指示用戶典型地前傾并且非常大聲,而用于第二用戶的簡檔指示第二用戶是安靜的(例如,很少大聲)。針對第二用戶所執(zhí)行的動作可以基于第二用戶變得大聲而調(diào)整,而在第一用戶是大聲時,可以不調(diào)整針對第一用戶所執(zhí)行的動作,這是由于第一用戶的簡檔指示他們典型就是大聲的。
【附圖說明】
[0004]圖1示出了用于使用非言語通信來確定要在會話系統(tǒng)中執(zhí)行的動作的系統(tǒng);
圖2示出了用于將非言語通信與直接通信一起使用以便確定要執(zhí)行的動作的圖示的過程;
圖3示出了可以被用作間接輸入的示例性非言語通信提示;
圖4圖示了用于使用非言語通信的示例性系統(tǒng);以及
圖5-7和相關(guān)聯(lián)的說明書提供了對本發(fā)明的實施例可以在其中被實踐的多種多樣的操作環(huán)境的討論。
【具體實施方式】
[0005]現(xiàn)在參考附圖,其中相同的數(shù)字表示相同的元素,將描述各種不同的實施例。
[0006]圖1示出了用于使用非言語通信來確定要執(zhí)行的動作的系統(tǒng)。如所圖示的,系統(tǒng)100包括應(yīng)用程序110、理解管理器26、用戶簡檔125、接收的交互120、非言語通信提示121-123以及(多個)設(shè)備115。
[0007]為了促進與理解管理器26的通信,一個或多個調(diào)回例程(callback routine)可以被實現(xiàn)。根據(jù)一個實施例,應(yīng)用程序110是生產(chǎn)力應(yīng)用,諸如被包括在微軟辦公(MICROSOFT OFFICE)應(yīng)用套件中的應(yīng)用,其被配置來接收用戶交互。該應(yīng)用程序110可以被配置來與一個或多個不同的計算設(shè)備進行交互或者在一個或多個不同的計算設(shè)備上進行操作(所述計算設(shè)備例如是板式/平板電腦、臺式計算機、觸摸屏、顯示器、膝上型計算機、移動設(shè)備等)。可以使用一個或多個不同的感測設(shè)備來接收用戶交互。例如,(多個)感測設(shè)備可以包括攝像機、麥克風(fēng)、運動捕獲設(shè)備(例如,微軟的KINECT)、觸摸面、顯示器、感測設(shè)備(例如,心跳、呼吸等)等等。
[0008]用戶交互包括直接輸入(例如,特定的文字、手勢、動作)和間接輸入(例如,諸如非言語通信提示121-123之類的非言語通信)。用戶交互可以包括諸如話音輸入、鍵盤輸入(例如,物理鍵盤和/或SIP)、基于視頻的輸入等之類的交互。
[0009]理解管理器26可以響應(yīng)于包括直接輸入和間接輸入的交互來向應(yīng)用110提供信息。一般地,非言語通信包括任何形式的檢測的通信,其在不使用直接通信(例如,文字、預(yù)定義的手勢、文本輸入等)的情況下捕獲事物是如何被通信的。非言語通信可以被用來確認(rèn)直接通信和/或否認(rèn)直接通信。非言語通信經(jīng)常被用于通信中。例如,當(dāng)用戶變得心煩時,用戶的話音可能變得更大聲和/或改變音調(diào)。用戶的身體特性也可能會改變。例如,用戶的心跳速率和/或呼吸速率可能提高/降低,他們的面部表情、肢體運動、姿勢等可以根據(jù)情況而改變(例如,用戶可以前傾來表示注意,顯示厭惡的面容來表示不滿等等)。
[0010]在一些示例中,直接輸入可能與檢測到的非言語通信相沖突。例如,用戶可能聲明他們喜歡一組結(jié)果,但是他們的非言語通信指示減弱的滿意度等級(例如,憤怒的音調(diào)被檢測到)。
[0011]理解管理器26被配置來響應(yīng)于接收的用戶輸入/交互來確定要執(zhí)行的動作。如所提到的,接收的交互包括直接輸入(例如,語音、文本、手勢)和間接輸入(例如,非言語通信)。非言語通信包括諸如肢體語言、面部表情、呼吸速率、心跳速率以及人聲提示等之類的提示。如在本文中所使用的,人聲提示包括:語調(diào)(聲調(diào))提示:等級、范圍和時間上的輪廓;音量(能量)提示:等級、范圍和時間上的輪廓;持續(xù)時間模式提示:語音和無聲區(qū)域的定時,所述無聲區(qū)域包括等待時間暫停(在機器動作和用戶語音之間的時間);以及話音質(zhì)量提示:話音音色的頻譜和聲學(xué)特征(指示人聲作用力(vocal effort)、張力、氣息聲、粗糙度)。
[0012]不同的非言語通信提示由理解管理器26來接收和/或監(jiān)控。理解管理器26可以基于所接收/所檢測的一個或多個間接輸入(例如,非言語提示)來修正指定要執(zhí)行的動作(例如,“執(zhí)行動作I”)的直接輸入。也可以由理解管理器26響應(yīng)于間接輸入來執(zhí)行另一個動作。例如,如果非言語提示就所執(zhí)行的動作來指示挫折,則理解管理器26可以執(zhí)行修正的動作,修正的動作可以被執(zhí)行和/或可以請求來自用戶的澄清。
[0013]簡檔(用戶簡檔125)可以與每個用戶相關(guān)聯(lián),以便使用非言語提示所確定的動作/響應(yīng)使用與用戶相關(guān)的非言語通信行為而被確定。每個用戶一般地展示不同的非言語通信行為。例如,用于第一用戶的簡檔可以指示該用戶典型地前傾并且非常大聲,而用于第二用戶的簡檔指示第二用戶是安靜的(例如,很少大聲)。針對第二用戶所執(zhí)行的動作可以基于第二用戶變得大聲而由理解管理器26調(diào)整,而在第一用戶是大聲時,可能不會調(diào)整針對第一用戶所執(zhí)行的動作,這是由于第一用戶的簡檔指示他們典型地是大聲的。在下文中提供更多的細(xì)節(jié)。
[0014]圖2示出了用于將非言語通信與直接通信一起使用以便確定要執(zhí)行的動作的圖示的過程200。當(dāng)閱讀對本文中所提出的例程的討論時,應(yīng)該意識到的是,各種不同的實施例的邏輯操作被實現(xiàn)(I)為一系列計算機實現(xiàn)的動作或運行在計算系統(tǒng)上的程序模塊和/或(2)為在計算系統(tǒng)內(nèi)的相互連接的機器邏輯電路或電路模塊。實現(xiàn)方式是取決于實現(xiàn)本發(fā)明的計算系統(tǒng)的性能要求的選擇的問題。因此,所圖示的和組成本文所描述的實施例的邏輯操作被不同地稱之為操作、結(jié)構(gòu)設(shè)備、動作或模塊。這些操作、結(jié)構(gòu)設(shè)備、動作和模塊可以以軟件、固件、專用數(shù)字邏輯以及其任何組合來實現(xiàn)。
[0015]在開始操作之后,過程移到操作210,在其中接收用戶交互。用戶交互可以包括不同形式的交互,例如語音、觸摸、手勢、文本、鼠標(biāo)等。例如,用戶可以說出命令和/或執(zhí)行一些其他輸入(例如,與輸入相關(guān)聯(lián)的手勢)??梢允褂靡粋€或多個不同的設(shè)備來接收用戶交互。例如,設(shè)備可以包括攝像機、麥克風(fēng)、運動捕獲設(shè)備(例如,微軟的KINECT)、觸摸面、顯示器、感測設(shè)備(例如,心跳、呼吸等)等等。用戶交互包括直接輸入(例如,特定的文字、手勢、動作)和間接輸入(例如,非言語通信)。
[0016]流向操作220,來自用戶交互的直接輸入被確定。直接輸入可以是請求應(yīng)用/系統(tǒng)執(zhí)行動作的語音輸入、手勢(例如,特定的肢體運動)、觸摸手勢(例如,使用觸摸設(shè)備)、文本輸入等。直接輸入是與用戶交互相關(guān)聯(lián)的特定文字/命令。
[0017]移到操作230,(多個)間接輸入被確定。被監(jiān)控/被檢測的間接輸入可以包括多種多樣的不同的非言語通信提示。例如,非言語通信提示可以包括人聲提示、心跳速率、呼吸速率、面部表情、肢體語言等(參見圖3以及相關(guān)的討論)中的一個或多個。間接輸入可以被使用來確認(rèn)直接輸入和/或修正直接輸入和/或執(zhí)行一個或多個其他動作。
[0018]轉(zhuǎn)到操作240,與執(zhí)行交互的用戶相關(guān)聯(lián)的簡檔被訪問。根據(jù)實施例,該簡檔包括非言語通信提示/與用戶相關(guān)聯(lián)的信息。該簡檔可以包括一般由用戶所使用的非言語通信提示的基準(zhǔn)簡檔。例如,簡檔可以包括與用戶相關(guān)聯(lián)的正常的心跳速率、呼吸速率、姿勢、面部表情以及人聲提示。每個用戶的非言語提示可以是不同的。例如,一個用戶可以總是端坐和以單音調(diào)話音來談話,而另一個用戶典型地懶散地坐著或站著(slouch)并且大聲說話。被包括在簡檔中的非言語提示可以被用在確定什么時候在用戶的非言語通信中存在改變。
[0019]流向操作250,使用直接輸入和間接輸入來確定要執(zhí)行的動作。例如,用戶可以使用語音輸入來指示要執(zhí)行的動作,但是他們的非言語通信指示猶豫/懷疑。這些非言語提示可以被使用來修正要執(zhí)行的動作和/或請求來自用戶的進一步的輸入(例如,要求確認(rèn)、改變問題等)。例如,系統(tǒng)的話音可以基于從用戶的非言語通信中所檢測到的憤怒/高興的等級而改變(自適應(yīng)的話音響應(yīng))。也可以響應(yīng)于檢測到的滿意度等級而采取不同的路徑/方法。用戶界面也可以響應(yīng)于檢