移動(dòng)設(shè)備的實(shí)時(shí)3d姿勢(shì)識(shí)別和跟蹤系統(tǒng)的制作方法
【專利摘要】本公開涉及用于識(shí)別3D姿勢(shì)的設(shè)備和該設(shè)備中的方法。該設(shè)備連接至傳感器并且能訪問姿勢(shì)圖像的數(shù)據(jù)庫,該數(shù)據(jù)庫包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的可索引特征??伤饕卣靼ń?jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向。該方法包括:經(jīng)由傳感器捕捉(110)3D姿勢(shì)的圖像、對(duì)捕捉圖像進(jìn)行標(biāo)準(zhǔn)化(120)、從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像中導(dǎo)出(130)可索引特征、以及使用相似性函數(shù)將所導(dǎo)出的可索引特征與數(shù)據(jù)庫的可索引特征進(jìn)行比較(140)。該方法還包括基于該比較來確定(150)數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像。
【專利說明】
移動(dòng)設(shè)備的實(shí)時(shí)3D姿勢(shì)識(shí)別和跟蹤系統(tǒng)
技術(shù)領(lǐng)域
[0001 ]本公開涉及姿勢(shì)識(shí)別,且更具體地涉及用于識(shí)別3D姿勢(shì)的設(shè)備和方法。
[0002]背景
[0003]人手有27個(gè)自由度(DoF):每個(gè)手指有四個(gè)自由度,其中三個(gè)自由度用于伸直和屈曲、一個(gè)自由度用于外展和內(nèi)收;拇指更復(fù)雜并且有五個(gè)D0F,剩下六個(gè)DOF用于手腕的轉(zhuǎn)動(dòng)和平移。由于手的運(yùn)動(dòng)學(xué)的大量DoF,在視頻序列中捕捉手和手指運(yùn)動(dòng)是高度挑戰(zhàn)性的任務(wù)。由于受限的功率和昂貴的計(jì)算,該過程在手持式智能設(shè)備上甚至更復(fù)雜。
[0004]基本上,常見的現(xiàn)有解決方案遵循圖1所示的步驟。一個(gè)/多個(gè)傳感器所捕捉到的查詢圖像序列將被分析以便對(duì)用戶的手/手指分段。諸如背景移除、分類、特征檢測(cè)等圖像分析算法被利用來檢測(cè)手/手指。實(shí)際上,手部跟蹤和姿勢(shì)識(shí)別的現(xiàn)有算法可以被分組為兩類:基于外觀的方法以及基于3D手部模型的方法(US2010053151A1、US2010159981A1、TO2012135545A1、以及US2012062558A1)。前者是基于手部姿勢(shì)與2D圖像特征的直接比較。用于檢測(cè)人類姿勢(shì)的常用圖像特征包括手部色彩和形狀、局部手部特征等等?;谔卣鞯姆椒ǖ娜秉c(diǎn)在于為了提取手部特征一般要求干凈的圖像分段。例如在背景雜亂時(shí)這不是容易的任務(wù)。而且,人手是高度樞接的。通常由于自遮擋而難以找到局部的手部特征,且需要某些種類的試探法來處理各種各樣的手部姿勢(shì)。取代采用2D圖像特征來直接表示手部,基于3D手部模型的方法使用3D運(yùn)動(dòng)學(xué)手部模型來呈現(xiàn)手部姿態(tài)。綜合分析(ABS)策略被采用來通過將3D手部模型投射的外觀與從相機(jī)觀察到的圖像對(duì)準(zhǔn)來恢復(fù)手部運(yùn)動(dòng)參數(shù)。一般而言,由于較簡(jiǎn)單的2D圖像特征,用基于外觀的方法來實(shí)現(xiàn)實(shí)時(shí)性能更容易。然而,此類方法僅可以處理簡(jiǎn)單的手部姿勢(shì),如指尖的檢測(cè)和跟蹤。相反,基于3D手部模型的方法提供了豐富描述,該豐富描述潛在地允許廣泛類別的手部姿勢(shì)。主要難題在于3D的手部是復(fù)雜的27個(gè)自由度的可變形模型。為了覆蓋不同視圖情況下的全部特征手部圖像,因此需要非常大的數(shù)據(jù)庫。將來自視頻輸入的查詢圖像與數(shù)據(jù)庫中的全部手部圖像匹配是耗時(shí)的并且是計(jì)算上昂貴的。這就是為什么大多數(shù)現(xiàn)有的基于3D手部模型的方法都著眼于以受限的照明和背景條件對(duì)全局手部運(yùn)動(dòng)進(jìn)行實(shí)時(shí)跟蹤。
[0005]概述
[0006]—個(gè)目的是解決以上提出的問題中的一些問題,并且為計(jì)算高效的實(shí)時(shí)姿勢(shì)識(shí)別提供解決方案。該目的及其他目的通過根據(jù)獨(dú)立權(quán)利要求所述的方法和設(shè)備并且通過根據(jù)從屬權(quán)利要求的實(shí)施例來實(shí)現(xiàn)。
[0007]按照第一方面,提供了一種用于識(shí)別3D姿勢(shì)的方法。該方法在能訪問姿勢(shì)圖像數(shù)據(jù)庫的設(shè)備中執(zhí)行。該設(shè)備與適于捕捉3D姿勢(shì)的圖像的傳感器通信。姿勢(shì)圖像數(shù)據(jù)庫包括標(biāo)準(zhǔn)化姿勢(shì)圖像的可索引特征??伤饕卣靼?biāo)準(zhǔn)化姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向。該方法包括:經(jīng)由傳感器捕捉3D姿勢(shì)的圖像、以及按照數(shù)據(jù)庫中的標(biāo)準(zhǔn)化姿勢(shì)圖像對(duì)捕捉圖像進(jìn)行標(biāo)準(zhǔn)化。該方法還包括從標(biāo)準(zhǔn)化的捕捉圖像中導(dǎo)出可索引特征??伤饕卣靼?biāo)準(zhǔn)化的捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向。該方法還包括:使用相似性函數(shù)對(duì)所導(dǎo)出的可索引特征與數(shù)據(jù)庫的可索引特征進(jìn)行比較,以及基于該比較來確定數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像姿勢(shì)。
[0008]按照第二方面,提供了一種用于識(shí)別3D姿勢(shì)的設(shè)備。該設(shè)備被配置成能訪問姿勢(shì)圖像數(shù)據(jù)庫,該數(shù)據(jù)庫包括標(biāo)準(zhǔn)化姿勢(shì)圖像的可索引特征??伤饕卣靼?biāo)準(zhǔn)化姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向。該設(shè)備可連接至適于捕捉3D姿勢(shì)的圖像的傳感器。該設(shè)備包括處理單元。處理單元適于經(jīng)由傳感器來捕捉3D姿勢(shì)的圖像、按照數(shù)據(jù)庫的標(biāo)準(zhǔn)化姿勢(shì)圖像來對(duì)捕捉到的圖像進(jìn)行標(biāo)準(zhǔn)化、以及從標(biāo)準(zhǔn)化的捕捉圖像中導(dǎo)出可索引特征。可索引特征包括標(biāo)準(zhǔn)化的捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向。處理單元還適于使用相似性函數(shù)將所導(dǎo)出的可索引特征與數(shù)據(jù)庫的可索引特征進(jìn)行比較。處理單元還適于基于該比較來確定數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0009]各實(shí)施例的優(yōu)點(diǎn)在于,以較少的計(jì)算資源使得高分辨率姿勢(shì)識(shí)別變得實(shí)時(shí)可行。
[0010]各實(shí)施例的其他目的、優(yōu)點(diǎn)和特征將在以下結(jié)合附圖和權(quán)利要求書考慮的詳細(xì)描述中說明。
[0011]附圖簡(jiǎn)述
[0012]圖1是示意性地圖示根據(jù)現(xiàn)有技術(shù)的用于姿勢(shì)跟蹤和識(shí)別的方法的流程圖。
[0013]圖2A是按照本發(fā)明的各實(shí)施例的移動(dòng)平臺(tái)中的3D用戶界面系統(tǒng)的示意性圖畫說明。
[0014]圖2B是按照本發(fā)明的各實(shí)施例的采用可穿戴設(shè)備的3D用戶界面的示意性圖畫說明。
[0015]圖2C是按照本發(fā)明的各實(shí)施例的固定平臺(tái)中的3D用戶界面的示意性圖畫說明。
[0016]圖3示意性地圖示根據(jù)本發(fā)明的各實(shí)施例的方法和系統(tǒng)。
[0017]圖4是示意性地圖示根據(jù)本發(fā)明的各實(shí)施例的用于將姿勢(shì)條目存儲(chǔ)于數(shù)據(jù)庫中的方法的流程圖。
[0018]圖5是示意性地圖示根據(jù)本發(fā)明的各實(shí)施例的用于搜索姿勢(shì)條目并且查找查詢輸入的匹配的方法的流程圖。
[0019]圖6是示意性地圖示根據(jù)本發(fā)明的各實(shí)施例的用于圖像查詢處理的方法的流程圖。
[0020]圖7示意性地圖示根據(jù)本發(fā)明的各實(shí)施例的用于界面層的方法。
[0021 ]圖8示意性地圖示根據(jù)各實(shí)施例的圖2A所示的移動(dòng)設(shè)備20。
[0022]圖9示意性地圖示根據(jù)各實(shí)施例的圖2B所示的可穿戴設(shè)備20。
[0023]圖10示意性地圖示根據(jù)各實(shí)施例的圖2C所示的固定設(shè)備20。
[0024]圖1la-1lb示意性地圖示根據(jù)各實(shí)施例的由設(shè)備執(zhí)行的方法。
[0025]圖12示意性地圖示根據(jù)各實(shí)施例的設(shè)備。
[0026]詳細(xì)描述
[0027]概覽
[0028]3D姿勢(shì)識(shí)別是人和將來移動(dòng)設(shè)備之間的交互設(shè)計(jì)中高度期望的特征。具體而言,在虛擬或增強(qiáng)現(xiàn)實(shí)環(huán)境中,與物理世界的直覺交互看上去不可避免,并且3D姿勢(shì)交互可能是諸如跟蹤墊和觸摸屏之類的當(dāng)前輸入設(shè)施的最有效的替代品。在本發(fā)明的各實(shí)施例中,提供了用于3D姿勢(shì)識(shí)別和跟蹤的解決方案。所提出的方法和系統(tǒng)基于極大的姿勢(shì)數(shù)據(jù)庫中的匹配查找。該數(shù)據(jù)庫包括關(guān)于在轉(zhuǎn)動(dòng)和定位以及相應(yīng)的位置/方向參數(shù)方面具有所有可能的變化的各種類型的手部姿勢(shì)的捕捉的條目。執(zhí)行查詢輸入與數(shù)據(jù)庫條目之間的屬性的相似性分析。該系統(tǒng)檢索包括數(shù)據(jù)庫條目以及所獲得的查詢輸入的經(jīng)注釋信息在內(nèi)的匹配。
[0029]不像要求大量功率、計(jì)算和存儲(chǔ)器的典型計(jì)算機(jī)視覺方法,一種新的框架被定義來解決相同的問題但使用完全不同的方法。所提出的技術(shù)可以用大規(guī)模搜索框架來處理例如高DoF手部運(yùn)動(dòng)的復(fù)雜度,而當(dāng)前技術(shù)受限于低分辨率的姿勢(shì)識(shí)別和跟蹤。
[0030]對(duì)于一般的移動(dòng)設(shè)備應(yīng)用,需要覆蓋完全范圍的手部/身體姿勢(shì)。為了處理高維度人類姿勢(shì)空間中有挑戰(zhàn)性的窮盡性搜索問題,提出了用于對(duì)姿勢(shì)圖像的大規(guī)模搜索的高效索引算法。所公開的系統(tǒng)的優(yōu)點(diǎn)是對(duì)巨量數(shù)據(jù)庫圖像的極快檢索,它能在存在噪聲和雜亂的情況下,在各種照明條件下處理高DoF的手部運(yùn)動(dòng)。該解決方案適于對(duì)移動(dòng)應(yīng)用的特殊要求,如實(shí)時(shí)、低復(fù)雜度和穩(wěn)健性以及高分辨率跟蹤和準(zhǔn)確性。
[0031]根據(jù)本發(fā)明的各實(shí)施例,使得配備有視覺傳感器或其他類型的傳感器的任何移動(dòng)、可穿戴或靜止的設(shè)備能夠確定或識(shí)別3D空間中的人類姿勢(shì),例如手部、頭部或身體姿勢(shì),其中傳感器為諸如移動(dòng)相機(jī)、網(wǎng)絡(luò)相機(jī)、深度傳感器或超聲傳感器。姿勢(shì)跟蹤使用查詢輸入序列中的所確定的或所識(shí)別的姿勢(shì)來執(zhí)行。識(shí)別和跟蹤是基于在所注釋的姿勢(shì)條目的極大數(shù)據(jù)庫(DB)中的高級(jí)搜索系統(tǒng)搜索。數(shù)據(jù)庫包括具有3D空間中的全部變形和變化的全部可能的手部姿勢(shì),這可能對(duì)應(yīng)于上百萬個(gè)條目。在每一時(shí)刻,對(duì)于任何查詢姿勢(shì),所提出的系統(tǒng)自動(dòng)地搜索數(shù)據(jù)庫并且檢索最佳匹配。這會(huì)導(dǎo)致實(shí)時(shí)的3D姿勢(shì)跟蹤。該技術(shù)促成其中可使用直覺3D交互的實(shí)時(shí)應(yīng)用中的用戶一設(shè)備交互。本發(fā)明的各實(shí)施例被設(shè)計(jì)成支持諸如智能電話和增強(qiáng)現(xiàn)實(shí)眼鏡這樣的移動(dòng)/可穿戴設(shè)備上的交互。它也可以用于固定的、移動(dòng)的及其他數(shù)字設(shè)備。
[0032]圖3圖示本發(fā)明的一實(shí)施例,包括可應(yīng)用于智能電話、移動(dòng)設(shè)備、可穿戴智能設(shè)備、固定系統(tǒng)和數(shù)字小工具的方法和系統(tǒng)。它包括四個(gè)主要組成部分:預(yù)處理的經(jīng)注釋和索引的姿勢(shì)數(shù)據(jù)庫50;接收查詢姿勢(shì)的圖像查詢處理單元30;實(shí)時(shí)姿勢(shì)搜索引擎70,它接收查詢姿勢(shì)并且自動(dòng)從姿勢(shì)數(shù)據(jù)庫檢索最佳匹配;以及最后是界面層90,它接收搜索引擎的輸出并將該輸出應(yīng)用于正在進(jìn)行的應(yīng)用。所要求的硬件平臺(tái)是任何數(shù)字設(shè)備。
[0033]系統(tǒng)描述
[0034]圖2A是按照本發(fā)明的一實(shí)施例的3D用戶界面系統(tǒng)200A的示意性圖示。用戶界面基于配備有一個(gè)/多個(gè)任何類型的傳感器34(例如,2D/3D相機(jī)、超聲、3D深度相機(jī)、IR相機(jī))的任何種類(移動(dòng)、固定、可穿戴等等)的智能設(shè)備20,所述傳感器捕捉在設(shè)備20后面、前面和/或周圍的3D場(chǎng)景信息,所述3D場(chǎng)景信息包括人類用戶10的姿勢(shì)32,例如手部、頭部或身體姿勢(shì)。為了檢測(cè)/識(shí)別姿勢(shì)32(手部/頭部/身體姿勢(shì)),智能設(shè)備20捕捉具有足夠分辨率的姿勢(shì)圖像來允許提取姿勢(shì)32(手部/頭部/身體姿勢(shì))及其具體的位置和方向。位置表示圖像中的姿勢(shì)中心(x,y)加上姿勢(shì)尺度(在z中距傳感器的距離)的空間坐標(biāo),方向是手部姿勢(shì)相對(duì)于傳感器的3D坐標(biāo)(x,y,z)的相對(duì)方向。除了姿勢(shì)32(手部/頭部/身體姿勢(shì))以外,捕捉圖像或查詢圖像33—般還包括其他身體部位和/雜亂的背景。
[0035]在圖2A中,系統(tǒng)200A捕捉和處理包含用戶的姿勢(shì)32(手部/頭部/身體姿勢(shì))的查詢圖像33的序列。在用戶10執(zhí)行姿勢(shì)32(手部/頭部/身體姿勢(shì))時(shí),系統(tǒng)200A通過查詢圖像33的序列跟蹤用戶的姿勢(shì)32(手部/頭部/身體姿勢(shì))。在設(shè)備20的處理單元24和/或捕捉傳感器34上運(yùn)行的軟件處理該圖像序列以檢索每個(gè)查詢圖像33中的用戶姿勢(shì)32的可索引特征36,如本文中以下詳細(xì)解釋的。軟件將所提取的可索引特征36與大規(guī)模經(jīng)索引特征詞匯表72相匹配以便為查詢圖像33找到最佳匹配,如本文中以下詳細(xì)解釋的。大規(guī)模詞匯表是來自數(shù)據(jù)庫圖像的可索引特征的大規(guī)模矩陣。
[0036]數(shù)據(jù)庫52包括數(shù)百萬個(gè)手部姿勢(shì)圖像。手部姿勢(shì)圖像用具體的3D運(yùn)動(dòng)參數(shù)(三個(gè)位置參數(shù)和三個(gè)方向參數(shù))58來注釋,如本文中以下詳細(xì)解釋的。在數(shù)據(jù)庫52中為查詢輸入33尋找最佳手部姿勢(shì)圖像提供查詢輸入33的3D運(yùn)動(dòng)參數(shù)。
[0037]圖5圖示的方法還通過序列中的多個(gè)幀分析姿勢(shì)圖73以便優(yōu)化并加速搜索過程,如本文中以下描述的。
[0038]該系統(tǒng)還可以包括運(yùn)動(dòng)跟蹤功能以便通過查詢輸入33的序列跟蹤用戶姿勢(shì)32,以使圖5所示的方法可任選地每?jī)蓚€(gè)(或更多個(gè))幀僅執(zhí)行一次。
[0039]一個(gè)/多個(gè)檢測(cè)到的/識(shí)別到的輸出(動(dòng)作/姿勢(shì)/3D運(yùn)動(dòng)、所注釋的圖像、"_)92經(jīng)由應(yīng)用編程接口(API)被提供給在設(shè)備20上運(yùn)行的應(yīng)用程序。該程序可以例如響應(yīng)于一個(gè)/多個(gè)執(zhí)行的姿勢(shì)32而移動(dòng)和修改顯示器100上呈現(xiàn)的圖像、3D對(duì)象或其他2D/3D視覺內(nèi)容94ο
[0040]作為替代,這些處理功能中的全部或一些可由與任何其他計(jì)算機(jī)化設(shè)備集成的適當(dāng)處理器實(shí)現(xiàn),任何其他計(jì)算機(jī)化設(shè)備為諸如游戲控制臺(tái)、媒體播放器、智能TV等。配備有捕捉傳感器34 (2D/3D相機(jī)、IR傳感器、超聲等)、存儲(chǔ)單元22和處理單元24的任何計(jì)算機(jī)化裝置可利用上述功能中的至少一些來提供較佳的用戶界面系統(tǒng)。
[0041]提供姿勢(shì)圖像數(shù)據(jù)庫
[0042]圖4是用于形成經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52的可索引特征54的方法50的示意圖。數(shù)據(jù)庫包含在方向、定位和尺度方面全部都有可能變化的手部姿勢(shì)條目的一大組不同的實(shí)時(shí)圖像56。它也可以包括由3D樞接的手部模型/3D圖形模型等用已知的位置和方向參數(shù)合成的全部手部姿勢(shì)圖形57。
[0043]除了查詢輸入33和數(shù)據(jù)庫之間的匹配以外,旨在實(shí)現(xiàn)的一個(gè)重要特征是從查詢輸入33中檢索3D運(yùn)動(dòng)參數(shù)(對(duì)應(yīng)于三個(gè)維度的三個(gè)位置參數(shù)和三個(gè)方向參數(shù))。由于查詢輸入33不包含3D運(yùn)動(dòng)參數(shù)(三個(gè)方向和三個(gè)位置參數(shù)),最佳解決方案是將查詢輸入33的3D運(yùn)動(dòng)參數(shù)(三個(gè)方向和三個(gè)位置參數(shù))與從數(shù)據(jù)庫中檢索到的最佳匹配相關(guān)聯(lián)。為此,數(shù)據(jù)庫條目用它們的地面實(shí)況3D運(yùn)動(dòng)參數(shù)(三個(gè)方向和三個(gè)位置參數(shù))58來標(biāo)記。這可以通過任何運(yùn)動(dòng)捕捉系統(tǒng)來完成,如基于視覺的系統(tǒng)、磁性傳感器、頂U(kuò)等。其他姿勢(shì)條目源59也被用來擴(kuò)展數(shù)據(jù)庫。通過將3D運(yùn)動(dòng)參數(shù)(三個(gè)方向和三個(gè)位置參數(shù))標(biāo)記至手部姿勢(shì)圖像,形成經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52。經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目表示純姿勢(shì)條目(無背景和噪聲)。方法50提取經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目的可索引特征54??伤饕卣?4包括低級(jí)邊緣方向?qū)傩?,所述低?jí)邊緣方向?qū)傩园◤慕?jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的條目中導(dǎo)出的邊緣像素的確切位置和方向。如果每一單個(gè)邊緣像素被認(rèn)為是2D圖像坐標(biāo)上的細(xì)線,則邊緣像素的方向是該細(xì)線相對(duì)于圖像坐標(biāo)原點(diǎn)的角度。技術(shù)上,它可以從圖像相對(duì)于X和y方向的梯度中計(jì)算。
[0044]為了提取可索引特征54,經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的全部條目將被標(biāo)準(zhǔn)化,且其相應(yīng)的邊緣圖像被計(jì)算。邊緣圖像可以通過對(duì)姿勢(shì)圖像進(jìn)行濾波來計(jì)算。不同的邊緣檢測(cè)器在計(jì)算機(jī)視覺領(lǐng)域中已知并且也可以被使用。每一單個(gè)邊緣像素將由其位置和方向來表示。為了形成低級(jí)邊緣方向特征的全局結(jié)構(gòu),大規(guī)模詞匯表72被形成以表示每個(gè)邊緣特征可能發(fā)生的全部可能的情況??紤]與邊緣的位置和方向有關(guān)的整個(gè)數(shù)據(jù)庫,大規(guī)模詞匯表72可以用邊緣像素格式表示手勢(shì)的整個(gè)詞匯表。邊緣像素格式是邊緣圖像的每個(gè)像素根據(jù)其位置和方向的表示。
[0045] 圖像查詢處理
[0046I圖6是示意性地圖示用于圖像查詢處理的方法30的示意圖。查詢輸入33用一個(gè)/多個(gè)傳感器34(2D/3D相機(jī)、IR傳感器、超聲等等)捕捉到的用戶10的姿勢(shì)32(手部/頭部/身體姿勢(shì))的具體的三個(gè)位置和三個(gè)方向參數(shù)來表征該姿勢(shì)32。一個(gè)/多個(gè)傳感器34捕捉設(shè)備20后面或前面的3D場(chǎng)景信息。智能設(shè)備20捕捉查詢輸入33的序列并且處理它們以檢索可索引特征36。方法30從查詢輸入33中提取可索引特征36??伤饕卣?6包括低級(jí)邊緣方向?qū)傩?,所述低?jí)邊緣方向?qū)傩园◤牟樵冚斎?3導(dǎo)出的邊緣像素的確切位置和方向。
[0047]為了提取可索引特征36,查詢輸入33將被標(biāo)準(zhǔn)化,并且其相應(yīng)的邊緣圖像被計(jì)算。每一單個(gè)邊緣像素將由其位置和方向來表示。
[0048]基本上,捕捉用戶姿勢(shì)32(手部/頭部/身體姿勢(shì))的查詢輸入33包含由不相關(guān)的對(duì)象、環(huán)境噪聲等引起的雜亂背景,因此根據(jù)查詢輸入33檢索到的可索引特征36包含來自姿勢(shì)32的特征和來自有噪背景的特征兩者。另一方面,經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目表示純姿勢(shì)條目(無背景和噪聲),因此從經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目中檢索到的可索引特征54僅表示來自純姿勢(shì)的特征。因此,查詢圖像的邊緣圖像無法被定義得與數(shù)據(jù)庫圖像中的邊緣圖像一樣精確。
[0049]姿勢(shì)搜索引擎
[0050]圖5圖示了用于姿勢(shì)搜索引擎70的方法。經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目的所提取可索引特征54構(gòu)建姿勢(shì)搜索引擎70中的大規(guī)模可索引特征詞匯表72。
[0051]大規(guī)模經(jīng)索引特征詞匯表72被形成以表示每個(gè)邊緣特征可能發(fā)生的所有可能情況??紤]與邊緣的位置和方向有關(guān)的整個(gè)數(shù)據(jù)庫,大規(guī)模詞匯表72可以用邊緣像素格式表示姿勢(shì)的整個(gè)詞匯表。例如,對(duì)于為P*q像素的圖像尺寸、以及L邊緣方向表示,對(duì)于具有N個(gè)姿勢(shì)圖像的數(shù)據(jù)庫,詞匯表72將具有p*q*L個(gè)列和N個(gè)行。因此,詞匯表72用具有具體的行和列處的特征的所有數(shù)據(jù)庫圖像52的索引來填充。詞匯表72從整個(gè)數(shù)據(jù)庫52收集所需的信息,這在用于姿勢(shì)搜索引擎70的方法中是必要的。
[0052]為了檢測(cè)/識(shí)別查詢圖像33中的用戶姿勢(shì)32,大規(guī)模搜索表72以及每個(gè)查詢圖像33的所檢索的可索引特征被直接相似性分析函數(shù)75用來在經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中選擇前m個(gè)第一級(jí)匹配。
[0053]采用邊緣像素格式的每個(gè)查詢輸入33包含一組邊緣點(diǎn),該組邊緣點(diǎn)可由行-列位置和具體方向來表示。直接相似性函數(shù)分析75基于全部邊緣特征的位置和具體方向來計(jì)算查詢輸入33的所檢索的可索引特征36與大規(guī)模經(jīng)索引特征詞匯表72之間的相似性。直接相似性分析函數(shù)是向一對(duì)數(shù)據(jù)值分配分?jǐn)?shù)的函數(shù),其中該分?jǐn)?shù)指示查詢的經(jīng)索引特征與數(shù)據(jù)庫中的每個(gè)條目的經(jīng)索引特征的相似性。如果查詢輸入33中的檢索到的可索引特征36以及經(jīng)注釋的姿勢(shì)圖像數(shù)據(jù)庫52的檢索到的可索引特征54滿足特定條件,則直接相似性分析函數(shù)75向具有在那些具體行-列位置處都有相似方向的邊緣的全部數(shù)據(jù)庫圖像52分配+Kl個(gè)點(diǎn)。直接相似性分析函數(shù)75對(duì)查詢輸入33的每一單個(gè)邊緣像素格式執(zhí)行上述過程。
[0054]直接相似性分析函數(shù)75的第一步滿足其中來自查詢輸入33以及數(shù)據(jù)庫圖像52的兩個(gè)邊緣圖案正好彼此覆蓋的情況,而在大多數(shù)實(shí)際情況中,兩個(gè)相似圖案在位置上彼此極接近,但在它們之間沒有大的重疊。對(duì)于常規(guī)發(fā)生的這些情況,直接相似性分析函數(shù)75基于第一級(jí)和第二級(jí)鄰居像素來分配額外的點(diǎn)。
[0055]非??赡艿那闆r是在兩個(gè)極相似的圖案不重疊但卻落在彼此的相鄰像素上時(shí)。為了考慮這些情況,除了直接相似性分析函數(shù)75的第一步以外,對(duì)于任何單個(gè)像素而言,為了分配額外的點(diǎn)應(yīng)當(dāng)考慮數(shù)據(jù)庫圖像中的第一級(jí)8個(gè)相鄰像素以及第二級(jí)16個(gè)相鄰像素。任一單個(gè)像素的第一級(jí)8個(gè)相鄰像素是圍繞該單個(gè)像素的像素。第二級(jí)鄰居包括圍繞第一級(jí)8個(gè)相鄰像素的16個(gè)像素。具有在第一級(jí)鄰居和第二級(jí)鄰居中都有相同方向的邊緣的全部數(shù)據(jù)庫圖像52分別接收+K2個(gè)點(diǎn)以及+K3個(gè)點(diǎn)。簡(jiǎn)言之,針對(duì)在三個(gè)級(jí)別有不同權(quán)重的數(shù)據(jù)庫圖像的相似性,對(duì)于查詢中的全部邊緣像素執(zhí)行直接相似性分析75。最后,每個(gè)數(shù)據(jù)庫圖像的累積分?jǐn)?shù)被計(jì)算和標(biāo)準(zhǔn)化,并且最大分?jǐn)?shù)被選擇作為前m個(gè)第一級(jí)匹配。
[0056]為了在前m個(gè)第一級(jí)匹配中查找最接近的匹配,逆相似性分析76被執(zhí)行。逆相似性分析76意指除了查找查詢姿勢(shì)32與經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的條目的相似性以外,還應(yīng)當(dāng)計(jì)算經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中所選擇的前m個(gè)條目與查詢姿勢(shì)32的逆相似性(reversesimilarity)。出于準(zhǔn)確性原因而使用逆相似性函數(shù)。不使用逆相似性分析會(huì)得到較低的檢索準(zhǔn)確度,但降低復(fù)雜度。
[0057]逆相似性分析76為給定用戶姿勢(shì)32從經(jīng)注釋圖像數(shù)據(jù)庫52中返回η個(gè)最佳匹配(η<m)。直接相似性分析75與逆相似性分析76函數(shù)的組合為查詢輸入33從經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中返回最佳匹配。
[0058]姿勢(shì)搜索引擎70中的另一任選步驟是通過采用姿勢(shì)鄰域分析函數(shù)77的姿勢(shì)搜索的平滑。平滑意指3D姿勢(shì)交互序列中的檢索到的最佳匹配應(yīng)當(dāng)表示平滑運(yùn)動(dòng)。為了執(zhí)行平滑檢索,分析經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52中的條目并將所述條目映射至高維度空間以檢測(cè)姿勢(shì)圖73。姿勢(shì)圖73指示哪些姿勢(shì)彼此更靠近并且落在高維度的同一鄰域中。因此,對(duì)于序列中的查詢輸入33,在執(zhí)行直接相似性分析函數(shù)75之后,逆相似性將由逆相似性分析函數(shù)76計(jì)算,并且將選擇最高匹配。此后,方法70搜索姿勢(shì)圖73以檢查這些最高匹配中的哪個(gè)匹配較接近于前一個(gè)幀匹配,并且將選擇經(jīng)注釋圖像數(shù)據(jù)庫52中的最接近的條目作為最終的最佳匹配。此后,可以立即使用對(duì)最佳匹配的已標(biāo)記的3D運(yùn)動(dòng)參數(shù)(三個(gè)位置和三個(gè)方向參數(shù))58來促成在顯示器100上運(yùn)行的各種應(yīng)用場(chǎng)景。
[0059]界面
[0060]圖7是示意性地圖示界面層90的接收搜索引擎70的檢測(cè)/識(shí)別輸出(動(dòng)作/姿勢(shì)/3D運(yùn)動(dòng)、經(jīng)注釋圖像等等)92的方法的流程圖。所檢測(cè)的/所識(shí)別的參數(shù)(動(dòng)作/姿勢(shì)/3D運(yùn)動(dòng)、經(jīng)注釋的圖像等)92經(jīng)由應(yīng)用編程接口(API)被提供給設(shè)備20上運(yùn)行的應(yīng)用。應(yīng)用可以包括顯示器100上呈現(xiàn)的2D/3D視頻游戲、2D/3D對(duì)象建模/渲染、照片瀏覽、地圖、導(dǎo)航等。用戶10感知顯示器100上的響應(yīng)于用戶姿勢(shì)32性能被連續(xù)修改的輸出視覺內(nèi)容(2D/3D)94。
[0061 ]設(shè)備的詳細(xì)描述
[0062]圖8圖示圖2A所示的移動(dòng)設(shè)備20。移動(dòng)設(shè)備20由存儲(chǔ)單元22、處理單元24、傳感器34(例如,2D/3D相機(jī)、IR傳感器、超聲等)和顯示器100組成。傳感器34捕捉設(shè)備20前面的3D場(chǎng)景信息。移動(dòng)設(shè)備20也可以包括后傳感器34(例如,2D/3D相機(jī)、IR傳感器、超聲等等),所述后傳感器34捕捉移動(dòng)設(shè)備20后面的3D場(chǎng)景信息。移動(dòng)設(shè)備20捕捉查詢輸入33的序列并且處理它們以檢索可索引特征36。存儲(chǔ)單元22存儲(chǔ)經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52、大規(guī)模經(jīng)索引特征詞匯表72、以及姿勢(shì)圖73。處理單元24執(zhí)行用于圖像查詢處理的方法30、以及用于搜索引擎70的方法。處理單元24還響應(yīng)于用戶姿勢(shì)32性能來修改顯示器100上呈現(xiàn)的輸出視覺內(nèi)容(2D/3D)94。顯示器100顯示移動(dòng)設(shè)備20上運(yùn)行的應(yīng)用。應(yīng)用可以包括顯示器100上呈現(xiàn)的2D/3D視頻游戲、2D/3D對(duì)象建模/渲染、照片瀏覽、地圖、導(dǎo)航等。用戶10感知顯示器100上的響應(yīng)于用戶姿勢(shì)32性能被連續(xù)修改的輸出視覺內(nèi)容(2D/3D) 94。圖9圖示圖2B所示的可穿戴設(shè)備20??纱┐髟O(shè)備20由存儲(chǔ)單元22、處理單元24、傳感器34(例如,2D/3D相機(jī)、IR傳感器、超聲等)和顯示器100組成。傳感器34捕捉可穿戴設(shè)備20前面的3D場(chǎng)景信息??纱┐髟O(shè)備20捕捉查詢輸入33的序列并且處理它們以檢索可索引特征36。存儲(chǔ)單元22存儲(chǔ)經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52、大規(guī)模經(jīng)索引特征詞匯表72、以及姿勢(shì)圖73。處理單元24執(zhí)行用于圖像查詢處理的方法30、以及用于搜索引擎70的方法。處理單元24還響應(yīng)于用戶姿勢(shì)32性能來修改顯示器100上呈現(xiàn)的輸出視覺內(nèi)容(2D/3D)94。顯示器100顯示可穿戴設(shè)備20上運(yùn)行的應(yīng)用。應(yīng)用可以包括顯示器100上呈現(xiàn)的2D/3D視頻游戲、2D/3D對(duì)象建模/呈現(xiàn)、照片瀏覽、地圖、導(dǎo)航等。用戶10感知顯示器100上的響應(yīng)于用戶姿勢(shì)32性能被連續(xù)修改的輸出視覺內(nèi)容(2D/3D)94o
[0063]圖10圖示了圖2C示出的固定設(shè)備20。固定設(shè)備20由存儲(chǔ)單元22、處理單元24、傳感器34(例如,2D/3D相機(jī)、IR傳感器、超聲等)和顯示器100組成。傳感器34捕捉固定設(shè)備20前面的3D場(chǎng)景信息。固定設(shè)備20捕捉查詢輸入33的序列并且處理它們以檢索可索引特征36。存儲(chǔ)單元22存儲(chǔ)經(jīng)注釋姿勢(shì)圖像數(shù)據(jù)庫52、大規(guī)模經(jīng)索引特征詞匯表72、以及姿勢(shì)圖73。處理單元24執(zhí)行用于圖像查詢處理的方法30、以及用于搜索引擎70的方法。處理單元24還響應(yīng)于用戶姿勢(shì)32性能來修改顯示器100上呈現(xiàn)的輸出視覺內(nèi)容(2D/3D)94。顯示器100顯示固定設(shè)備20上運(yùn)行的應(yīng)用。
[0064]應(yīng)用可以包括顯示器100上呈現(xiàn)的2D/3D視頻游戲、2D/3D對(duì)象建模/渲染、照片瀏覽、地圖、導(dǎo)航等。用戶10感知顯示器100上的響應(yīng)于用戶姿勢(shì)32性能被連續(xù)修改的輸出視覺內(nèi)容(2D/3D)94。
[0065]根據(jù)各實(shí)施例的方法和設(shè)備
[0066]在本發(fā)明的各實(shí)施例中解決了用于實(shí)時(shí)姿勢(shì)識(shí)別的設(shè)備中的資源需求計(jì)算以及受限功率的問題。圖1la是圖示根據(jù)各實(shí)施例的用于識(shí)別3D姿勢(shì)的方法的流程圖。該方法在設(shè)備20中執(zhí)行,設(shè)備20能訪問姿勢(shì)圖像數(shù)據(jù)庫52并且與傳感器34通信。傳感器34適于捕捉3D姿勢(shì)的圖像33。傳感器可以是設(shè)備的一個(gè)集成部分,或者它可以是可連接至設(shè)備的單獨(dú)傳感器。姿勢(shì)圖像數(shù)據(jù)庫52包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的可索引特征54,所述可索引特征包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向。設(shè)備可以包括用于存儲(chǔ)數(shù)據(jù)庫52的存儲(chǔ)單元22,或者它可以包括用于經(jīng)由存儲(chǔ)數(shù)據(jù)庫52的遠(yuǎn)程數(shù)據(jù)庫節(jié)點(diǎn)例如經(jīng)由互聯(lián)網(wǎng)進(jìn)行通信的接口單元。該方法包括:
[0067].110:經(jīng)由傳感器34捕捉3D姿勢(shì)的圖像33。在各實(shí)施例中,捕捉圖像可以包括捕捉3D姿勢(shì)的圖像序列。圖像序列可用于細(xì)化對(duì)匹配數(shù)據(jù)庫圖像的確定,如以下將詳述的。
[0068].120:對(duì)捕捉圖像進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化可以按照數(shù)據(jù)庫中的經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像來完成以允許比較。標(biāo)準(zhǔn)化可以包括將捕捉圖像的尺寸重新調(diào)整為數(shù)據(jù)庫圖像的尺寸。數(shù)據(jù)庫條目一般被標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)的圖像尺寸,諸如320*240像素或640*480像素,因此捕捉圖像可以被標(biāo)準(zhǔn)化為數(shù)據(jù)庫條目的特定尺寸。
[0069].130:從經(jīng)標(biāo)準(zhǔn)化的捕捉圖像33中導(dǎo)出可索引特征36??伤饕卣?6包括經(jīng)標(biāo)準(zhǔn)化的捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向。
[0070].140:使用相似性函數(shù)將所導(dǎo)出的可索引特征36與從數(shù)據(jù)庫導(dǎo)出的可索引特征54進(jìn)行比較。
[0071].150:基于該比較來確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0072]使用包括經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向的可索引特征的一個(gè)優(yōu)點(diǎn)在于:它允許識(shí)別3D姿勢(shì)的計(jì)算上高效的方式。
[0073]圖1lb是根據(jù)另一實(shí)施例的設(shè)備中的方法的流程圖。該方法包括以上參照?qǐng)D1la所述的步驟。然而,對(duì)所導(dǎo)出的可索引特征36進(jìn)行比較140的步驟進(jìn)一步包括:
[0074].141:使用直接相似性分析來確定數(shù)據(jù)庫中與捕捉圖像匹配的多個(gè)姿勢(shì)圖像;以及
[0075].142:使用對(duì)多個(gè)姿勢(shì)圖像的逆相似性分析來確定與捕捉圖像匹配的多個(gè)姿勢(shì)圖像的子集。
[0076]在該實(shí)施例中,數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像被確定150為是所述多個(gè)姿勢(shì)圖像的子集中的一個(gè)姿勢(shì)圖像。然而,如之前已描述的,使用逆相似性分析的步驟142是任選的。在不執(zhí)行逆相似性分析時(shí),數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像被確定150為是通過直接相似性分析確定的多個(gè)姿勢(shì)圖像之一。直接相似性分析和逆相似性分析在以上子章節(jié)“姿勢(shì)搜索引擎”中進(jìn)一步描述。逆相似性分析76可出于準(zhǔn)確性原因被使用。然而,盡管不使用逆相似性分析會(huì)得到較低的檢索準(zhǔn)確度,但好處是它降低了復(fù)雜度。
[0077]圖1lb中的流程圖也圖示了該方法還可以包括使用160所確定的與3D姿勢(shì)匹配的姿勢(shì)圖像來修改顯示器上呈現(xiàn)的視覺內(nèi)容,如以上在例如章節(jié)“接口”中已經(jīng)例示的。
[0078]兩個(gè)非常相似的姿勢(shì)圖像可能不具有重疊的邊緣像素,但可以落在彼此的相鄰像素上。為了考慮這些情況,除了直接相似性分析函數(shù)75的第一步驟以外,在與所捕捉的圖像進(jìn)行比較時(shí)可以考慮數(shù)據(jù)庫圖像中的第一級(jí)的8個(gè)相鄰像素以及第二級(jí)的16個(gè)相鄰像素。因此,在各實(shí)施例中,由該設(shè)備執(zhí)行的方法還可以包括:
[0079]-導(dǎo)出附加的可索引特征,所述附加的可索引特征包括來自經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的相鄰像素的位置和方向;以及
[0080]一使用相似性函數(shù)將所導(dǎo)出的附加可索引特征與數(shù)據(jù)庫的附加可索引特征進(jìn)行比較。
[0081]然后,也可以基于附加可索引特征的比較來確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0082]而且,與3D姿勢(shì)匹配的姿勢(shì)圖像可以基于姿勢(shì)圖來確定,所述姿勢(shì)圖指示姿勢(shì)圖像序列中彼此接近的各姿勢(shì)圖像。設(shè)備中的方法還可以包括基于圖像序列來跟蹤用戶姿勢(shì)、且數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像可還基于所跟蹤的用戶姿勢(shì)來確定。
[0083]在上述實(shí)施例的任一個(gè)中,姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目可以用包括三個(gè)方向和三個(gè)位置參數(shù)的相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)來標(biāo)記。因此,該方法還可以包括從數(shù)據(jù)庫中檢索和與3D姿勢(shì)相匹配的所確定的姿勢(shì)圖像相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)。
[0084]圖12是示意性地圖示根據(jù)各實(shí)施例的用于識(shí)別3D姿勢(shì)的設(shè)備20的框圖。設(shè)備20被配置成能訪問姿勢(shì)圖像的數(shù)據(jù)庫52,該數(shù)據(jù)庫52包括標(biāo)準(zhǔn)化姿勢(shì)圖像的可索引特征54。可索引特征包括標(biāo)準(zhǔn)化姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向。該設(shè)備可連接至適于捕捉3D姿勢(shì)的圖像33的傳感器34。傳感器34可被包括在設(shè)備20中,或者它可以與該設(shè)備分開。設(shè)備20包括處理單元24,所述處理單元24適于經(jīng)由傳感器捕捉3D姿勢(shì)的圖像33、對(duì)所捕捉的圖像進(jìn)行標(biāo)準(zhǔn)化、以及從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像33中導(dǎo)出可索引特征36??伤饕卣靼ń?jīng)標(biāo)準(zhǔn)化的所捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向。處理單元24還適于:使用相似性函數(shù)將所導(dǎo)出的可索引特征36與數(shù)據(jù)庫的可索引特征54進(jìn)行比較,以及基于該比較來確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0085]處理單元24還可以適于通過使用相似性分析對(duì)所導(dǎo)出的可索引特征進(jìn)行比較來確定數(shù)據(jù)庫中與所捕捉的圖像相匹配的多個(gè)姿勢(shì)圖像、并確定數(shù)據(jù)庫52中與3D姿勢(shì)相匹配的姿勢(shì)圖像是多個(gè)姿勢(shì)圖像之一。
[0086]此外,處理單元24可進(jìn)一步適于通過使用對(duì)多個(gè)姿勢(shì)圖像的逆相似性分析來對(duì)所導(dǎo)出的可索引特征進(jìn)行比較,以確定與所捕捉的圖像匹配的多個(gè)姿勢(shì)圖像的子集、并確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像為多個(gè)姿勢(shì)圖像的子集中的一個(gè)姿勢(shì)圖像。
[0087]在各實(shí)施例中,處理單元24還可以適于從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像中導(dǎo)出包括邊緣圖像的每個(gè)像素的相鄰像素的位置和方向的附加可索引特征。處理單元24還可適于:使用相似性函數(shù)將所導(dǎo)出的附加可索引特征與數(shù)據(jù)庫的附加可索引特征進(jìn)行比較,以及基于附加可索引特征的比較來確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0088]處理單元24還可適于基于姿勢(shì)圖來確定與3D姿勢(shì)匹配的姿勢(shì)圖像,所述姿勢(shì)圖指示姿勢(shì)圖像序列中彼此接近的姿勢(shì)圖像。處理單元24可適于經(jīng)由傳感器34來捕捉3D姿勢(shì)的圖像序列。在該實(shí)施例中,處理單元還可適于基于圖像序列來跟蹤用戶姿勢(shì)、并且還基于所跟蹤的用戶姿勢(shì)來確定數(shù)據(jù)庫52中與3D姿勢(shì)匹配的姿勢(shì)圖像。
[0089]處理單元24還可適于使用所確定的與3D姿勢(shì)匹配的姿勢(shì)圖像來修改顯示器上呈現(xiàn)的視覺內(nèi)容。此外,姿勢(shì)圖像數(shù)據(jù)庫52中的每個(gè)條目可以用包括三個(gè)方向參數(shù)和三個(gè)位置參數(shù)的相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)來標(biāo)記,且處理單元24還可適于從數(shù)據(jù)庫52中檢索與所確定的和3D姿勢(shì)匹配的姿勢(shì)圖像相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)。
[0090]在各實(shí)施例中,設(shè)備20可以包括存儲(chǔ)器,該存儲(chǔ)器包含可由所述處理單元24執(zhí)行的指令,借此該設(shè)備可用于經(jīng)由傳感器捕捉3D姿勢(shì)的圖像、按照數(shù)據(jù)庫的經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像對(duì)所捕捉的圖像進(jìn)行標(biāo)準(zhǔn)化、從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像中導(dǎo)出可索引特征、使用相似性函數(shù)將所導(dǎo)出的可索引特征與數(shù)據(jù)庫的可索引特征進(jìn)行比較、以及基于該比較來確定數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像。設(shè)備20也可以包括接口電路,該接口電路連接至處理單元24并且被配置成與傳感器34和/或數(shù)據(jù)庫52通信。
[0091]在描述圖12的實(shí)施例的一種替代方式中,設(shè)備20可以包括:用于經(jīng)由傳感器捕捉3D姿勢(shì)的圖像的裝置、用于按照該數(shù)據(jù)庫的經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像對(duì)所捕捉的圖像進(jìn)行標(biāo)準(zhǔn)化的裝置、用于從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像導(dǎo)出可索引特征的裝置、用于使用相似性函數(shù)將所導(dǎo)出的可索引特征與數(shù)據(jù)庫的可索引特征進(jìn)行比較的裝置、以及基于該比較來確定數(shù)據(jù)庫中與3D姿勢(shì)匹配的姿勢(shì)圖像的裝置。上述裝置是可以用硬件、軟件、固件或者它們的任意組合來實(shí)現(xiàn)的功能單元。在一實(shí)施例中,所述裝置被實(shí)現(xiàn)為處理器上運(yùn)行的計(jì)算機(jī)程序。
[0092]在描述圖12的實(shí)施例的另一種替代方式中,設(shè)備20可以包括中央處理單元(CPU),該中央處理單元(CPU)可以是單個(gè)單元或多個(gè)單元。此外,設(shè)備20可以包括至少一個(gè)計(jì)算機(jī)程序產(chǎn)品(CPP),該至少一個(gè)計(jì)算機(jī)程序產(chǎn)品(CPP)采用非易失性存儲(chǔ)器(例如,EEPROM(電可擦除可編程只讀存儲(chǔ)器))、閃存或者磁盤驅(qū)動(dòng)器的形式。CPP可以包括計(jì)算機(jī)程序,計(jì)算機(jī)程序包括在設(shè)備20的CPU上運(yùn)行時(shí)使設(shè)備20執(zhí)行以前結(jié)合圖lla-b描述的方法的代碼裝置。換言之,當(dāng)所述代碼裝置在CPU上運(yùn)行時(shí),它們對(duì)應(yīng)于圖12中的處理單元24。
[0093]以上提及且描述的實(shí)施例僅作為示例給出,而不應(yīng)當(dāng)是限制性的。在所附專利權(quán)利要求書的范圍內(nèi)的其他解決方案、用途、目標(biāo)及功能也可能是可行的。
【主權(quán)項(xiàng)】
1.一種用于識(shí)別三維3D姿勢(shì)的方法,所述方法在能訪問姿勢(shì)圖像數(shù)據(jù)庫(52)的設(shè)備(20)中執(zhí)行,所述設(shè)備與適于捕捉所述3D姿勢(shì)的圖像(33)的傳感器(34)通信,其中所述姿勢(shì)圖像數(shù)據(jù)庫(52)包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的可索引特征(54),所述可索引特征包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向,所述方法包括: -經(jīng)由所述傳感器捕捉(110)所述3D姿勢(shì)的圖像(33), -按照所述數(shù)據(jù)庫(52)的經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像對(duì)已捕捉圖像進(jìn)行標(biāo)準(zhǔn)化(120), -從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像(33)中導(dǎo)出(130)可索引特征(36),所述可索引特征(36)包括所述經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向, -使用相似性函數(shù)將所導(dǎo)出的可索引特征(36)與所述數(shù)據(jù)庫的可索引特征(54)進(jìn)行比較,以及 -基于所述比較來確定(150)所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所導(dǎo)出的可索引特征進(jìn)行比較(140)進(jìn)行包括: -使用(141)直接相似性分析來確定所述數(shù)據(jù)庫中與捕捉圖像匹配的多個(gè)姿勢(shì)圖像, 并且其中所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像被確定(150)為是所述多個(gè)姿勢(shì)圖像之一。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,將所導(dǎo)出的可索引特征進(jìn)行比較(140)進(jìn)一步包括: -使用(142)對(duì)所述多個(gè)姿勢(shì)圖像的逆相似性分析來確定與捕捉圖像匹配的所述多個(gè)姿勢(shì)圖像的子集, 且其中所述數(shù)據(jù)庫(52)中與3D姿勢(shì)匹配的姿勢(shì)圖像被確定(150)為是所述多個(gè)姿勢(shì)圖像的所述子集中的一個(gè)姿勢(shì)圖像。4.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,進(jìn)一步包括: -導(dǎo)出附加的可索引特征,所述附加的可索引特征包括來自經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的相鄰像素的位置和方向, -使用所述相似性函數(shù)將所導(dǎo)出的附加可索引特征與所述數(shù)據(jù)庫的附加可索引特征進(jìn)行比較, 并且其中,所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像還基于對(duì)所述附加可索引特征的比較來確定。5.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,與所述3D姿勢(shì)匹配的姿勢(shì)圖像是基于姿勢(shì)圖來確定的,所述姿勢(shì)圖指示姿勢(shì)圖像序列中彼此接近的姿勢(shì)圖像。6.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,捕捉(110)圖像包括捕捉所述3D姿勢(shì)的圖像序列。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,進(jìn)一步包括: -基于所述圖像序列來跟蹤用戶姿勢(shì), 并且其中,所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像還基于所跟蹤的用戶姿勢(shì)來確定。8.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,進(jìn)一步包括: -使用(160)所確定的與所述3D姿勢(shì)匹配的姿勢(shì)圖像來修改顯示器上呈現(xiàn)的視覺內(nèi)容。9.根據(jù)前述權(quán)利要求中的任一項(xiàng)所述的方法,其特征在于,所述姿勢(shì)圖像數(shù)據(jù)庫(52)中的每個(gè)條目用包括三個(gè)方向參數(shù)和三個(gè)位置參數(shù)的相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)來標(biāo)記,所述方法進(jìn)一步包括: -從所述數(shù)據(jù)庫(52)中檢索與所確定的與所述3D姿勢(shì)匹配的姿勢(shì)圖像相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)。10.—種用于識(shí)別三維3D姿勢(shì)的設(shè)備(20),所述設(shè)備被配置為能訪問姿勢(shì)圖像數(shù)據(jù)庫(52),所述數(shù)據(jù)庫包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的可索引特征(54),所述可索引特征包括經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像的邊緣圖像的每個(gè)像素的位置和方向,所述設(shè)備可連接至適于捕捉所述3D姿勢(shì)的圖像(33)的傳感器(34),且所述設(shè)備包括處理單元(24),所述處理單元(24)適于: -經(jīng)由所述傳感器(34)捕捉所述3D姿勢(shì)的圖像(33), -按照所述數(shù)據(jù)庫(52)的經(jīng)標(biāo)準(zhǔn)化的姿勢(shì)圖像對(duì)已捕捉圖像進(jìn)行標(biāo)準(zhǔn)化, -從經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像(33)中導(dǎo)出可索引特征(36),其中所述可索引特征(36)包括經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的位置和方向, -使用相似性函數(shù)將所導(dǎo)出的可索引特征(36)與所述數(shù)據(jù)庫的可索引特征(54)進(jìn)行比較,以及 -基于所述比較來確定所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像。11.根據(jù)權(quán)利要求10所述的設(shè)備(20),其特征在于,所述處理單元(24)還適于通過以下來將所導(dǎo)出的可索引特征進(jìn)行比較: -使用直接相似性分析來確定所述數(shù)據(jù)庫中與捕捉圖像匹配的多個(gè)姿勢(shì)圖像, 所述處理單元(24)進(jìn)一步適于確定所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像是所述多個(gè)姿勢(shì)圖像之一。12.根據(jù)權(quán)利要求11所述的設(shè)備(20),其特征在于,所述處理單元(24)還適于通過以下來將所導(dǎo)出的可索引特征進(jìn)行比較: -使用對(duì)所述多個(gè)姿勢(shì)圖像的逆相似性分析來確定與捕捉圖像匹配的所述多個(gè)姿勢(shì)圖像的子集, 所述處理單元(24)進(jìn)一步適于確定所述數(shù)據(jù)庫(52)中與速搜3D姿勢(shì)匹配的姿勢(shì)圖像是所述多個(gè)姿勢(shì)圖像的所述子集中的一個(gè)姿勢(shì)圖像。13.根據(jù)權(quán)利要求10-12中的任一項(xiàng)所述的設(shè)備(20),其特征在于,所述處理單元(24)進(jìn)一步適于: -導(dǎo)出附加的可索引特征,所述附加的可索引特征包括來自經(jīng)標(biāo)準(zhǔn)化的已捕捉圖像的邊緣圖像的每個(gè)像素的相鄰像素的位置和方向, -使用所述相似性函數(shù)將所導(dǎo)出的附加可索引特征與所述數(shù)據(jù)庫的附加可索引特征進(jìn)行比較,以及 -還基于對(duì)所述附加可索引特征的比較來確定所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像。14.根據(jù)權(quán)利要求10-13中的任一項(xiàng)所述的設(shè)備(20),其特征在于,所述處理單元(24)還可適于基于姿勢(shì)圖來確定與3D姿勢(shì)匹配的姿勢(shì)圖像,所述姿勢(shì)圖指示姿勢(shì)圖像序列中彼此接近的姿勢(shì)圖像。15.根據(jù)權(quán)利要求10-14中的任一項(xiàng)所述的設(shè)備(20),其特征在于,所述處理單元(24)還適于經(jīng)由所述傳感器(34)來捕捉所述3D姿勢(shì)的圖像序列。16.根據(jù)權(quán)利要求15所述的設(shè)備(20),其特征在于,所述處理單元(24)進(jìn)一步適于: -基于所述圖像序列來跟蹤用戶姿勢(shì),以及 -還基于所跟蹤的用戶姿勢(shì)來確定所述數(shù)據(jù)庫(52)中與所述3D姿勢(shì)匹配的姿勢(shì)圖像。17.根據(jù)權(quán)利要求10-16中的任一項(xiàng)所述的設(shè)備(20),其特征在于,所述處理單元(24)進(jìn)一步適于: -使用所確定的與3D姿勢(shì)匹配的姿勢(shì)圖像來修改顯示器上呈現(xiàn)的視覺內(nèi)容。18.根據(jù)權(quán)利要求10-17中的任一項(xiàng)所述的設(shè)備(20),其特征在于,所述姿勢(shì)圖像數(shù)據(jù)庫(52)中的每個(gè)條目用包括三個(gè)方向參數(shù)和三個(gè)位置參數(shù)的相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)來標(biāo)記,所述處理單元(24)還適于: -從所述數(shù)據(jù)庫(52)中檢索與所確定的與所述3D姿勢(shì)匹配的姿勢(shì)圖像相關(guān)聯(lián)的3D運(yùn)動(dòng)參數(shù)。
【文檔編號(hào)】G06K9/00GK106030610SQ201480074558
【公開日】2016年10月12日
【申請(qǐng)日】2014年12月22日
【發(fā)明人】S·優(yōu)素菲, H·李, F·阿卜丹孔多瑞
【申請(qǐng)人】馬諾手勢(shì)股份公司