基于聲學(xué)相機(jī)的音頻視覺(jué)場(chǎng)景分析的制作方法

文檔序號(hào)：11209007閱讀：756來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于聲學(xué)相機(jī)的音頻視覺(jué)場(chǎng)景分析的制造方法與工藝

背景技術(shù)：

聲學(xué)相機(jī)是可以用來(lái)再現(xiàn)場(chǎng)景中的聲音能量的視覺(jué)表示的設(shè)備。該可視化的結(jié)果有時(shí)被稱為聲學(xué)圖像或聲學(xué)映射。與由標(biāo)準(zhǔn)相機(jī)產(chǎn)生的圖像類似，聲學(xué)圖像是2-d像素網(wǎng)格。但是，與其中像素對(duì)應(yīng)于場(chǎng)景內(nèi)的光形態(tài)的基于光的圖像不同，聲學(xué)圖像中的像素對(duì)應(yīng)于在場(chǎng)景內(nèi)發(fā)出的聲音的強(qiáng)度。在一些情況下，可以利用結(jié)合1-d麥克風(fēng)陣列的信號(hào)處理技術(shù)，其中輸出圖像的每個(gè)像素表示如在由1-d陣列麥克風(fēng)的每個(gè)空間點(diǎn)處捕捉的來(lái)自獨(dú)特到達(dá)角的聲音強(qiáng)度。一個(gè)這樣的示例技術(shù)是波束賦形，也被稱為空間濾波。波束賦形包括使每個(gè)麥克風(fēng)信號(hào)相對(duì)延遲并且添加它們。因此，來(lái)自特定方向的信號(hào)被放大（例如，同相），而來(lái)自其他方向（角度）的信號(hào)被減弱或以其他方式減輕。所得到的信號(hào)的強(qiáng)度然后可以被計(jì)算和映射，使得與到達(dá)角（或方向）對(duì)應(yīng)的像素反映信號(hào)的功率。

附圖說(shuō)明

圖1圖示了依照本公開(kāi)的實(shí)施例的聲學(xué)監(jiān)視系統(tǒng)的框圖。

圖2圖示了依照本公開(kāi)的實(shí)施例的具有空間對(duì)準(zhǔn)的圖像傳感器的示例2-d麥克風(fēng)陣列。

圖3圖示了依照本公開(kāi)的實(shí)施例的用于利用聲學(xué)成像和計(jì)算機(jī)處理及分析的場(chǎng)景分析的示例方法。

圖4圖示了依照本公開(kāi)的實(shí)施例的用于圖3的示例方法的示例過(guò)程流程，包括多個(gè)模塊被配置成對(duì)所觀察的場(chǎng)景內(nèi)的事件進(jìn)行檢測(cè)和分類。

圖5a-5c描繪了依照本公開(kāi)的一些實(shí)施例的在通過(guò)圖4的示例過(guò)程流程執(zhí)行場(chǎng)景分析時(shí)生成的各種中間的和得到的聲學(xué)圖像。

圖6圖示了依照本公開(kāi)的實(shí)施例配置的分布式聲學(xué)監(jiān)視系統(tǒng)。

圖7圖示了依照本公開(kāi)的示例實(shí)施例的利用在本文中公開(kāi)的場(chǎng)景分析技術(shù)配置的計(jì)算機(jī)系統(tǒng)。

圖8示出了依照本公開(kāi)的實(shí)施例配置的移動(dòng)計(jì)算系統(tǒng)。

將通過(guò)閱讀與在本文中描述的圖一起采取的以下詳細(xì)描述來(lái)更好地理解目前實(shí)施例的這些和其他特征。不意圖附圖按比例繪制。在圖中，通過(guò)同樣的數(shù)字來(lái)表示在各種圖中圖示的每個(gè)相同或幾乎相同的部件。為了清楚的目的，可能沒(méi)有在每個(gè)圖中標(biāo)注每個(gè)部件。

具體實(shí)施方式

公開(kāi)了用于場(chǎng)景分析的技術(shù)，其包括使用聲學(xué)成像和計(jì)算機(jī)音頻視覺(jué)（cav）過(guò)程用于視覺(jué)監(jiān)視和檢驗(yàn)應(yīng)用。特別地，依照本公開(kāi)的實(shí)施例配置的監(jiān)視系統(tǒng)包括與cav臺(tái)（stage）可操作地耦合的聲學(xué)相機(jī)。使用聲學(xué)相機(jī)來(lái)登記聲音變化，其在本文中被稱為聲音事件，發(fā)生在所觀察的場(chǎng)景內(nèi)，并且cv-臺(tái)被配置成對(duì)導(dǎo)致那些聲音事件的一個(gè)或多個(gè)狀況（原因）進(jìn)行分析和智能分類。聲音變化可以包括例如引入聲音（例如，安靜→聲音，或者聲音1→聲音1+聲音2）、現(xiàn)有的聲音改變（例如，聲音變更大或更柔和）、第一聲音改變到第二聲音（例如，聲音1→聲音2）、移除聲音（例如，聲音→安靜，或者聲音1+聲音2→聲音1）的情況，以及與當(dāng)前聲音域中的改變相關(guān)聯(lián)的任何其他事件。在任何這樣的情況下，cav-增強(qiáng)的聲學(xué)監(jiān)視系統(tǒng)可以用來(lái)將聲音事件與在所觀察的場(chǎng)景中標(biāo)識(shí)的對(duì)象相關(guān)聯(lián)，并且利用該關(guān)聯(lián)將導(dǎo)致那些事件的一個(gè)或多個(gè)原因或狀況聯(lián)系起來(lái)。該技術(shù)基于如下認(rèn)識(shí)：在某些環(huán)境中諸如在工業(yè)裝備的狀況監(jiān)視期間定位和標(biāo)識(shí)聲音的源是有益的。例如，針對(duì)工業(yè)裝備而監(jiān)視進(jìn)行的聲學(xué)事件使得該機(jī)器的操作模式能夠被更好地理解，使得與正常的或否則預(yù)期的操作的偏離可以用來(lái)標(biāo)識(shí)例如發(fā)生的故障或者用于預(yù)防性維護(hù)的機(jī)會(huì)，視具體情況而定。在一些實(shí)施例中，控制器被配置成接收?qǐng)鼍皵?shù)據(jù)，場(chǎng)景數(shù)據(jù)包括圖像幀、聲學(xué)圖像幀和多個(gè)經(jīng)空間濾波的音頻樣本?？刂破骺梢栽谟^察到場(chǎng)景時(shí)實(shí)時(shí)地或接近實(shí)時(shí)地接收該場(chǎng)景數(shù)據(jù)，或者可以處理先前捕捉的場(chǎng)景數(shù)據(jù)。在任何這樣的情況下，控制器包括事件識(shí)別模式，其被配置成（例如，通過(guò)聲學(xué)圖像）檢測(cè)指示聲音事件的在場(chǎng)景的空間譜中的變化，并且將與每個(gè)事件相關(guān)的聲學(xué)圖像和圖像像素的區(qū)域隔離。這些相關(guān)的區(qū)域還可以包括每個(gè)事件的音頻內(nèi)容，其中音頻內(nèi)容起因于空間濾波，使得僅導(dǎo)致事件的那些聲音信號(hào)在音頻內(nèi)容中最突出或以其他方式清楚地可聽(tīng)。為此，并且依據(jù)實(shí)施例，在監(jiān)視系統(tǒng)的視場(chǎng)（fov）中的每個(gè)事件可以經(jīng)由數(shù)據(jù)融合來(lái)量化，其中多維事件簽名（signature）有效地起因于光圖像數(shù)據(jù)、聲學(xué)圖像數(shù)據(jù)和音頻數(shù)據(jù)的融合。在實(shí)施例中，可以（例如，利用聲學(xué)和圖像簽名技術(shù)）將這些事件簽名或事件“指印”與先前分類的或以其他方式先驗(yàn)地導(dǎo)出的其他這樣的事件簽名進(jìn)行比較，以對(duì)導(dǎo)致事件的可能狀況進(jìn)行分類。如將根據(jù)本公開(kāi)領(lǐng)會(huì)的，這樣的系統(tǒng)可以使能夠?qū)崿F(xiàn)在復(fù)雜的聲音環(huán)境、特別是以噪聲和其他干擾的存在為特征的那些環(huán)境中的準(zhǔn)確的場(chǎng)景分析和狀況監(jiān)視。如將進(jìn)一步領(lǐng)會(huì)的，該技術(shù)可以在能夠捕捉聲音和圖像數(shù)據(jù)或否則接收所捕捉的聲音和圖像數(shù)據(jù)的各種電子設(shè)備中實(shí)現(xiàn)，所述各種電子設(shè)備包括例如智能電話、可穿戴計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、片上系統(tǒng)配置或可以用于場(chǎng)景監(jiān)視和分析的其他電子設(shè)備。如將進(jìn)一步領(lǐng)會(huì)的，示例實(shí)施例可以以硬件、軟件、固件或其任何組合來(lái)實(shí)現(xiàn)。

一般概述

如先前討論的，諸如在工業(yè)環(huán)境中定位和標(biāo)識(shí)聲音的源可能是有益的。例如，機(jī)器的操作模式中的改變常常伴隨著獨(dú)特的可聽(tīng)改變、視覺(jué)改變或二者的組合，其中如果被適當(dāng)?shù)貥?biāo)識(shí)，則每個(gè)這樣的改變指示可執(zhí)行信息。一個(gè)這樣的具體示例包括加熱、通風(fēng)和空氣調(diào)節(jié)（hvac）機(jī)器，諸如通過(guò)各種子系統(tǒng)和其相關(guān)聯(lián)的循環(huán)（例如，冷卻階段、居留階段、加熱階段等）發(fā)出不同的聲音的冷卻裝置。這樣的聲音可以指示正常狀態(tài)和異常狀態(tài)二者。常常，這樣的分析全部或部分地留給人類來(lái)聽(tīng)、識(shí)別和作出反應(yīng)。然而，對(duì)未經(jīng)訓(xùn)練的/無(wú)經(jīng)驗(yàn)的耳朵而言聽(tīng)起來(lái)“正?！钡氖挛锟赡軐?duì)專家的耳朵而言聽(tīng)起來(lái)“異常”。不幸地，獲得這樣的專家知識(shí)是昂貴的，并且這樣的專家知識(shí)是要求時(shí)間、投資和訓(xùn)練的技能組。另外，許多生產(chǎn)環(huán)境是特別嘈雜的地方，使得難以精確定位聲音的源和清楚地聽(tīng)該聲音，即使人們被以該方式訓(xùn)練?，F(xiàn)今在市場(chǎng)上存在利用聲學(xué)影像來(lái)幫助彌補(bǔ)這些問(wèn)題的監(jiān)視系統(tǒng)。然而，這些解決方案涉及由技術(shù)人員進(jìn)行的手動(dòng)交互和解釋。另外，這些解決方案中的一些是受限的，因?yàn)槎鄠€(gè)同時(shí)的聲音，是真實(shí)世界環(huán)境的典型特征，可能重疊并且防止或以其他方式復(fù)雜化準(zhǔn)確的場(chǎng)景分析。出于該原因，現(xiàn)有的解決方案通常完全忽略聲音或者認(rèn)為其是次要方面。

因此，并且依照本公開(kāi)的實(shí)施例，公開(kāi)了使能夠?qū)崿F(xiàn)準(zhǔn)確的場(chǎng)景分析以用于復(fù)雜的聲音環(huán)境中的狀況監(jiān)視的技術(shù)。特別地，可以使用聲學(xué)監(jiān)視系統(tǒng)來(lái)檢測(cè)指示環(huán)境中的事件的在聲場(chǎng)中的改變，并且隔離每個(gè)事件以對(duì)導(dǎo)致其的原因或狀況進(jìn)行分類。一些這樣的示例環(huán)境包括工業(yè)環(huán)境和非工業(yè)環(huán)境二者，僅舉幾例，其包括例如城市環(huán)境、軍事環(huán)境、家庭環(huán)境和災(zāi)難地帶。在任何這樣的情況下，聲學(xué)監(jiān)視系統(tǒng)可以是在電子設(shè)備中實(shí)現(xiàn)的或以其他方式整合在電子設(shè)備內(nèi)的硬件和軟件的組合，所述電子設(shè)備包括例如移動(dòng)電子設(shè)備（例如，膝上型計(jì)算機(jī)、智能電話、可穿戴計(jì)算機(jī)）、固定位置系統(tǒng)（例如，臺(tái)式計(jì)算系統(tǒng)、計(jì)算機(jī)輔助的cctv或相機(jī)監(jiān)控系統(tǒng)、經(jīng)由通信網(wǎng)絡(luò)可操作地耦合的分布式計(jì)算系統(tǒng)）或其他基于計(jì)算機(jī)的設(shè)備和系統(tǒng)。注意，這些技術(shù)不限于實(shí)時(shí)場(chǎng)景分析，因?yàn)樗鼈兛梢杂脕?lái)分析先前捕捉的場(chǎng)景數(shù)據(jù)以執(zhí)行回顧性事件監(jiān)測(cè)和分類。另外，這樣的回顧性分析可以包括更新事件分類模型和/或配置改變（例如，閾值和檢測(cè)靈敏度）以增加總體的分析準(zhǔn)確性。此外，可以相對(duì)于被監(jiān)視的區(qū)域本地或遠(yuǎn)程地執(zhí)行分析。

一個(gè)具體示例實(shí)施例可以被至少部分地在計(jì)算設(shè)備內(nèi)實(shí)現(xiàn)，以提供向用戶警告機(jī)器內(nèi)的潛在故障狀況的聲學(xué)監(jiān)視系統(tǒng)或以其他方式監(jiān)視機(jī)器狀況。在一個(gè)這樣的實(shí)施例中，聲學(xué)監(jiān)視系統(tǒng)可以被配置成以連續(xù)模式（例如，始終開(kāi)啟、始終捕捉）或周期性模式（例如，每隔幾秒、按時(shí)間表或以其他方式延遲）來(lái)捕捉場(chǎng)景的音頻和視頻。另外，聲學(xué)監(jiān)視系統(tǒng)可以被以按需模式配置，由此用戶通過(guò)選擇用戶接口選項(xiàng)或硬件按鈕而發(fā)起捕捉。在一些這樣的示例情況下，例如，計(jì)算設(shè)備可以包括或否則通信地耦合到麥克風(fēng)陣列（例如，2-d麥克風(fēng)陣列）和圖像傳感器以執(zhí)行對(duì)聲音和圖像數(shù)據(jù)的捕捉。另外，計(jì)算設(shè)備可以包括或否則通信地耦合到被配置成基于所捕捉的音頻而生成聲學(xué)圖像數(shù)據(jù)的聲學(xué)圖像控制器。在實(shí)施例中，所捕捉的音頻由聲學(xué)圖像控制器處理并且被變換成表示所捕捉的場(chǎng)景的空間譜的2-d像素網(wǎng)格。在捕捉期間，2-d聲學(xué)圖像像素網(wǎng)格可以可選地通過(guò)（例如，在計(jì)算設(shè)備的顯示器上的）用戶接口而可視化，并且在一個(gè)這樣的示例情況下，可以被描繪為疊加到目標(biāo)/所觀察的場(chǎng)景的一個(gè)或多個(gè)所顯示的圖像上。如將領(lǐng)會(huì)的，這樣的疊加使來(lái)自監(jiān)視系統(tǒng)的視場(chǎng)（fov）的音頻數(shù)據(jù)與來(lái)自監(jiān)視系統(tǒng)的fov的視覺(jué)數(shù)據(jù)有效地相關(guān)。一些這樣的示例可視化包括所謂的“熱點(diǎn)”或熱圖表示，其有助于將聲音強(qiáng)度可視化，并且標(biāo)識(shí)發(fā)出聲音的位置（例如，到達(dá)角）。如根據(jù)本公開(kāi)將領(lǐng)會(huì)的，這些熱點(diǎn)可以被用到像素的每個(gè)集群（區(qū)域）是來(lái)自場(chǎng)景的音頻域的不同的聲音事件的程度，并且可以用來(lái)從場(chǎng)景的視覺(jué)域定位和隔離（例如，包含發(fā)出聲音的對(duì)象或位置的）圖像數(shù)據(jù)的對(duì)應(yīng)像素。為此，依據(jù)實(shí)施例，監(jiān)視系統(tǒng)的fov有效地允許豐富的數(shù)據(jù)集被捕捉，所述數(shù)據(jù)集包括來(lái)自音頻域和視覺(jué)域二者的分量。另外，這些熱點(diǎn)可以用來(lái)將經(jīng)空間濾波的聲音信號(hào)加和或否則放大所述聲音信號(hào)以生成聲學(xué)圖像數(shù)據(jù)。如根據(jù)本公開(kāi)將進(jìn)一步領(lǐng)會(huì)的，隔離的/放大的聲音信號(hào)、聲學(xué)圖像數(shù)據(jù)和圖像數(shù)據(jù)（例如，光圖像）的這樣的組合可以使能夠?qū)崿F(xiàn)針對(duì)每個(gè)事件的多維事件簽名，并且可以將該簽名與其他預(yù)先存儲(chǔ)的事件簽名（或模型）進(jìn)行比較以對(duì)導(dǎo)致每個(gè)事件的狀況或原因進(jìn)行分類。

在實(shí)施例中，聲學(xué)監(jiān)視系統(tǒng)可以向用戶提供警報(bào)消息，所述警報(bào)消息指示一個(gè)或多個(gè)檢測(cè)到的事件中的至少一個(gè)、針對(duì)事件的一個(gè)或多個(gè)所確定的分類以及與事件相關(guān)聯(lián)的補(bǔ)充數(shù)據(jù)（聲音事件信息）。例如，如果聲學(xué)監(jiān)視系統(tǒng)已經(jīng)在生產(chǎn)設(shè)施中觀察到濺射機(jī)，則聲學(xué)監(jiān)視系統(tǒng)可以基于登記從螺線管發(fā)出的不同聲音而檢測(cè)到螺線管出故障或否則處于異常狀態(tài)中。另外，這樣的分析可以包括（例如，使用對(duì)象識(shí)別）視覺(jué)上確認(rèn)機(jī)器是包括螺線管的類型的，從而增加聲音識(shí)別的必然性和準(zhǔn)確性。在該示例中，這樣的事件可以被分類并且用來(lái)生成警報(bào)消息。警報(bào)消息的一些這樣的示例包括文本或電子郵件消息、彈出窗口或可聽(tīng)鐘聲，用戶先前將其與聲學(xué)監(jiān)視應(yīng)用相關(guān)聯(lián)（例如，一系列嗶嗶聲指示機(jī)器故障或異常狀況）。另一示例警報(bào)是警報(bào)的聽(tīng)覺(jué)表示，諸如經(jīng)由實(shí)現(xiàn)聲學(xué)監(jiān)視系統(tǒng)的電子設(shè)備的揚(yáng)聲器預(yù)先記錄的表達(dá)：在所觀察的場(chǎng)景中檢測(cè)到事件并對(duì)所述事件分類（例如，濺射機(jī)1中的“螺線管正在異常地操作。報(bào)告已經(jīng)發(fā)電子郵件給你了”）。另一示例警報(bào)是通過(guò)壓電致動(dòng)器或一些其他適合的元件提供的觸覺(jué)響應(yīng)（例如，設(shè)備的振動(dòng)）。許多通信方案可以用來(lái)傳達(dá)警報(bào)，如將領(lǐng)會(huì)的那樣。

在實(shí)施例中，警報(bào)消息可以存在于增強(qiáng)現(xiàn)實(shí)模式中，其中警報(bào)消息疊加到所觀察的場(chǎng)景的（具有或不具有聲學(xué)圖像疊加的）一個(gè)或多個(gè)圖像上。另外，警告消息可以存在于在與發(fā)出聲音的機(jī)器/對(duì)象對(duì)應(yīng)的位置處的這樣的顯示的圖像內(nèi)。應(yīng)領(lǐng)會(huì)，這些技術(shù)不限于將這樣的警報(bào)消息呈現(xiàn)到現(xiàn)場(chǎng)（live）/所捕捉的圖像上。例如，機(jī)器的所生成的圖像（例如，3-d線框圖、剖面圖或其他表示）可以被提供對(duì)檢測(cè)到的事件的位置的指示（包括分類標(biāo)簽和其他補(bǔ)充數(shù)據(jù)），以便使能夠?qū)崿F(xiàn)對(duì)引起事件的狀況的增強(qiáng)的觀點(diǎn)。在較一般的意義上，一旦環(huán)境中的對(duì)象被標(biāo)識(shí)，就存在一定范圍的呈現(xiàn)選項(xiàng)，其包括真實(shí)的和生成的二者，以便將檢測(cè)到的狀況較精確地傳送給用戶。

另一具體示例實(shí)施例是分布式聲學(xué)監(jiān)視系統(tǒng)，使得系統(tǒng)的不同節(jié)點(diǎn)包括如在本文中公開(kāi)的場(chǎng)景數(shù)據(jù)采集和/或場(chǎng)景分析技術(shù)。例如，在一個(gè)具體示例情況下，如本文中提供的一個(gè)或多個(gè)聲學(xué)監(jiān)視系統(tǒng)、聲學(xué)相機(jī)和麥克風(fēng)陣列可以分布或以其他方式部署在通信網(wǎng)絡(luò)上。因此，分布式聲學(xué)監(jiān)視系統(tǒng)可以提供分布式的場(chǎng)景數(shù)據(jù)采集節(jié)點(diǎn)，其可以向中央位置或向能夠訪問(wèn)來(lái)自這些（多個(gè)）節(jié)點(diǎn)的信息的實(shí)體提供音頻、視頻和聲學(xué)圖像數(shù)據(jù)。這樣的環(huán)境可以例如在所謂的物聯(lián)網(wǎng)（iot）配置的背景下實(shí)現(xiàn)以提供通信地耦合到一個(gè)或多個(gè)分析節(jié)點(diǎn)的一個(gè)或多個(gè)場(chǎng)景數(shù)據(jù)采集節(jié)點(diǎn)，或其他這樣的分布式聲學(xué)監(jiān)視系統(tǒng)。進(jìn)一步注意，在這樣的iot系統(tǒng)中，這樣的設(shè)備可以被整合在部署在特定位置處的固定位置節(jié)點(diǎn)布置（例如，閉路電視（cctv）、檢查相機(jī)、監(jiān)控相機(jī)等）中并且不必定需要是移動(dòng)的。

系統(tǒng)架構(gòu)

圖1圖示了依照本公開(kāi)的實(shí)施例配置的聲學(xué)監(jiān)視系統(tǒng)100。如可以看到的，系統(tǒng)100包括場(chǎng)景（數(shù)據(jù)）采集設(shè)備102、聲學(xué)圖像控制器108、圖像控制器110和計(jì)算機(jī)音頻視覺(jué)（cav）控制器112。如將根據(jù)本公開(kāi)領(lǐng)會(huì)的，依照本公開(kāi)的實(shí)施例，數(shù)據(jù)采集設(shè)備102、聲學(xué)圖像控制器108和圖像控制器110配置有空間對(duì)準(zhǔn)的捕捉域（例如，公共視場(chǎng)）以生成空間和時(shí)間對(duì)準(zhǔn)的視頻和音頻數(shù)據(jù)用于由cav控制器112進(jìn)行的處理和后續(xù)場(chǎng)景分析。注意，空間和時(shí)間對(duì)準(zhǔn)可以由cav控制器112以硬件、軟件或其任何組合來(lái)執(zhí)行。另外，cav控制器112可以執(zhí)行各種后處理例程以執(zhí)行空間和時(shí)間對(duì)準(zhǔn)（例如，相比執(zhí)行這樣的對(duì)準(zhǔn)的聲學(xué)圖像設(shè)備）。在各種實(shí)施例中，在系統(tǒng)100中示出的部件中的一個(gè)或多個(gè)可以被完全整合和實(shí)現(xiàn)在單個(gè)芯片（例如，片上系統(tǒng)、專用集成電路（asic）、現(xiàn)場(chǎng)可編程門陣列（fpga）或其他適合的邏輯器件）內(nèi)，或者在其他實(shí)施例中，整合在一個(gè)或多個(gè)分離的芯片中并且被通信地耦合以實(shí)現(xiàn)在本文中不同地公開(kāi)的技術(shù)。

如所示，數(shù)據(jù)采集設(shè)備102包括圖像傳感器104。圖像傳感器104可以被實(shí)現(xiàn)為能夠捕捉光并且將其轉(zhuǎn)換成成比例的電信號(hào)的任何類型的傳感器，包括例如cmos、ccd和混合ccd/cmos傳感器。一些這樣的示例傳感器包括例如彩色圖像數(shù)據(jù)（rgb）、彩色和深度圖像數(shù)據(jù)（rgbd相機(jī)）、深度傳感器、立體相機(jī)（l/rrgb）、yuv、紅外信號(hào)和x-射線。盡管在圖1中描繪了單個(gè)圖像傳感器104，但是應(yīng)領(lǐng)會(huì)，可以在不脫離本公開(kāi)的范圍的情況下利用附加傳感器和傳感器類型（例如，被布置成從不同的視角為場(chǎng)景拍照的多個(gè)相機(jī)）。為此，取決于特定應(yīng)用，圖像傳感器104可以被實(shí)現(xiàn)為多個(gè)不同的傳感器。例如，圖像傳感器104可以包括為紅外檢測(cè)器的第一傳感器，以及為彩色圖像傳感器（例如，rgb、yuv）的第二傳感器。在其他示例中，圖像傳感器104可以包括被配置用于捕捉圖像信號(hào)的第一傳感器（例如，彩色圖像傳感器、啟用深度的圖像感測(cè)（rgdb）、立體相機(jī)（l/rrgb）、yuv、紅外和x-射線），以及與第一圖像傳感器不同的被配置成捕捉圖像數(shù)據(jù)的第二傳感器。

如在系統(tǒng)100中進(jìn)一步所示，數(shù)據(jù)采集設(shè)備102包括麥克風(fēng)陣列106。麥克風(fēng)陣列106可以被實(shí)現(xiàn)為例如可以將聲音（例如，聲壓）轉(zhuǎn)換成成比例的電信號(hào)的任何數(shù)目的麥克風(fēng)設(shè)備。在本文中討論的技術(shù)的一般背景下，麥克風(fēng)陣列106是具有mxn麥克風(fēng)模式的2-d麥克風(fēng)陣列，但其他麥克風(fēng)陣列配置將根據(jù)本公開(kāi)而是顯然的。在圖2中描繪了一個(gè)這樣的示例2-d麥克風(fēng)陣列200。如所示，描繪了以均勻線性陣列模式的8x8麥克風(fēng)陣列200。每個(gè)麥克風(fēng)202被定位在特定行和列中，并且因此可以在麥克風(fēng)陣列200內(nèi)被單獨(dú)地尋址。應(yīng)領(lǐng)會(huì)，在其他實(shí)施例中，麥克風(fēng)陣列200可以被以不同的模式配置，諸如例如圓形的、螺旋的、隨機(jī)的或其他的陣列模式。注意，在分布式聲學(xué)監(jiān)視系統(tǒng)（諸如下面關(guān)于圖6討論的那些）的背景下，麥克風(fēng)陣列200可以包括對(duì)聲學(xué)監(jiān)視系統(tǒng)100而言本地或遠(yuǎn)程（或本地和遠(yuǎn)程二者）的多個(gè)麥克風(fēng)陣列。

麥克風(fēng)陣列200的每個(gè)麥克風(fēng)202可以被實(shí)現(xiàn)為例如具有全向拾取響應(yīng)使得響應(yīng)等于來(lái)自任何方向的聲音的麥克風(fēng)設(shè)備。在實(shí)施例中，全向麥克風(fēng)可以被配置成對(duì)來(lái)自垂直于麥克風(fēng)陣列200的寬邊的源的聲音更敏感。這樣的寬邊陣列配置特別良好地適于相比于源自例如在麥克風(fēng)陣列200后面的聲音將在麥克風(fēng)陣列200前面的聲音源作為目標(biāo)。取決于應(yīng)用，可以利用其他適合的麥克風(fēng)陣列，如將根據(jù)本公開(kāi)而顯然的那樣。例如，可以在要求緊湊設(shè)計(jì)的應(yīng)用或者要求高增益和銳方向性的那些應(yīng)用中利用端射陣列。在其他實(shí)施例中，每個(gè)麥克風(fēng)202可以包括雙向、單向、獵槍、接觸或拋物線樣式的麥克風(fēng)。如在本文中一般地提到的，接觸麥克風(fēng)可以使能夠?qū)崿F(xiàn)通過(guò)使麥克風(fēng)與對(duì)象（例如，機(jī)器、人）接觸或緊密接近來(lái)檢測(cè)聲音。例如，可以使接觸麥克風(fēng)與設(shè)備外側(cè)（例如，底架）接觸，其中具有有著要被監(jiān)視的目標(biāo)設(shè)備或?qū)ο蟮囊暰€可能不是可能的或以其他方式可行的。

如在示例麥克風(fēng)陣列200中所示，每個(gè)麥克風(fēng)202包括相同麥克風(fēng)設(shè)備。一個(gè)這樣的具體示例包括mems類型的麥克風(fēng)設(shè)備。在其他實(shí)施例中，可以基于例如形狀因子、靈敏度、頻率響應(yīng)和其他應(yīng)用特定的因素來(lái)實(shí)現(xiàn)其他類型的麥克風(fēng)設(shè)備。在一般意義上，相同的麥克風(fēng)設(shè)備是特別有利的，因?yàn)槊總€(gè)麥克風(fēng)設(shè)備200可以具有匹配的靈敏度和頻率響應(yīng)以確保在音頻捕捉和波束賦形（空間）分析期間的優(yōu)化性能。在實(shí)施例中，麥克風(fēng)陣列200可以被實(shí)現(xiàn)在外殼或其他適當(dāng)?shù)臍んw內(nèi)。在一些情況下，麥克風(fēng)陣列200可以被以各種方式安裝，包括例如壁式安裝、天花板安裝和三腳架安裝。另外，麥克風(fēng)陣列200可以是手持裝置或以其他方式移動(dòng)的（非固定的）。在一些情況下，每個(gè)麥克風(fēng)202可以被配置成生成模擬或數(shù)字?jǐn)?shù)據(jù)流（其可能或可能不涉及模擬到數(shù)字轉(zhuǎn)換或數(shù)字到模擬轉(zhuǎn)換）。

根據(jù)本公開(kāi)應(yīng)領(lǐng)會(huì)，可以利用其他類型的麥克風(fēng)設(shè)備并且本公開(kāi)不限于具體模型或單個(gè)類型的麥克風(fēng)設(shè)備的使用。例如，在一些情況下，使麥克風(fēng)設(shè)備的子集具有平坦頻率響應(yīng)并且使其他具有定制的或否則作為目標(biāo)的頻率響應(yīng)可能是有利的。作為目標(biāo)的頻率響應(yīng)的一些這樣的示例包括例如被設(shè)計(jì)成強(qiáng)調(diào)人類語(yǔ)音中的頻率而減輕低頻背景噪聲的響應(yīng)模式。其他這樣的示例可以包括例如被設(shè)計(jì)成強(qiáng)調(diào)將高或低頻聲音的響應(yīng)模式，所述高或低頻聲音包括將正常地不可聽(tīng)或否則不可被人耳檢測(cè)到的頻率。其他示例包括麥克風(fēng)陣列200的子集具有配置有寬頻率響應(yīng)的響應(yīng)模式并且另一子集具有窄頻率響應(yīng)（例如，作為目標(biāo)的或以其他方式定制的頻率響應(yīng)）。在任何這樣的情況下，并且依照實(shí)施例，麥克風(fēng)陣列202的子集可以被針對(duì)作為目標(biāo)的頻率響應(yīng)進(jìn)行配置，而剩余的麥克風(fēng)可以利用不同的頻率響應(yīng)和靈敏度進(jìn)行配置。

仍參考圖2，在麥克風(fēng)陣列200的中心描繪了圖像傳感器104。依照實(shí)施例，圖像傳感器104的中心放置將相機(jī)的圖像捕捉域（視場(chǎng)）與麥克風(fēng)陣列200的音頻捕捉域空間對(duì)準(zhǔn)。在其他實(shí)施例中，圖像傳感器104的放置不限于中心位置。例如，圖像傳感器104可以被定位成緊挨著麥克風(fēng)陣列200或否則在麥克風(fēng)陣列200附近，只要捕捉域的一部分重疊，或者可以另外以重疊方式彼此相關(guān)。在任何這樣的情況下，依照本公開(kāi)的實(shí)施例，可以執(zhí)行校準(zhǔn)例程或空間配準(zhǔn)過(guò)程，使得圖像傳感器104的捕捉域和麥克風(fēng)陣列200的捕捉域被對(duì)準(zhǔn)以產(chǎn)生空間對(duì)準(zhǔn)的圖像和聲音數(shù)據(jù)。

返回到圖1，聲學(xué)圖像控制器108可以被實(shí)現(xiàn)例如為復(fù)雜指令集計(jì)算機(jī)（cisc）或精簡(jiǎn)指令集計(jì)算機(jī)（risc）處理器、x86指令集處理器、多核、微控制器、asic或中央處理單元（cpu）。在一些實(shí)施例中，聲學(xué)圖像控制器108可以包括（多個(gè)）雙核處理器、（多個(gè)）雙核移動(dòng)處理器等。聲學(xué)圖像控制器108可以包括（未示出的）記憶裝置，諸如包括閃存的非易失性存儲(chǔ)設(shè)備和/或易失性存儲(chǔ)設(shè)備，諸如隨機(jī)存取存儲(chǔ)器（ram）、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（dram）和靜態(tài)ram（sram）。

圖像控制器110可以被實(shí)現(xiàn)例如為例如復(fù)雜指令集計(jì)算機(jī)（cisc）或精簡(jiǎn)指令集計(jì)算機(jī)（risc）處理器、x86指令集處理器、多核、微控制器、asic或中央處理單元（cpu）。在一些實(shí)施例中，圖像控制器110可以包括（多個(gè)）雙核處理器、（多個(gè)）雙核移動(dòng)處理器等。圖像控制器110可以包括（未示出的）記憶裝置，諸如包括閃存的非易失性存儲(chǔ)設(shè)備和/或易失性存儲(chǔ)設(shè)備，諸如隨機(jī)存取存儲(chǔ)器（ram）、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（dram）和靜態(tài)ram（sram）。在實(shí)施例中，圖像控制器110包括（未示出的）圖像管線，其包括圖像信號(hào)處理器和一個(gè)或多個(gè)圖像增強(qiáng)臺(tái)用于圖像數(shù)據(jù)的捕捉后的處理。在實(shí)施例中，利用圖像控制器110來(lái)控制圖像傳感器104的相機(jī)到發(fā)起具有期望的特性的圖像數(shù)據(jù)的捕捉所必需的程度，所述特性諸如銳度、噪聲、對(duì)比度或任何其他期望的圖像質(zhì)量，視具體情況而定。

cav控制器112可以被實(shí)現(xiàn)例如為復(fù)雜指令集計(jì)算機(jī)（cisc）或精簡(jiǎn)指令集計(jì)算機(jī)（risc）處理器、x86指令集處理器、多核、微控制器、asic、fpga、soc或中央處理單元（cpu）。在一些實(shí)施例中，cav控制器112可以包括（多個(gè)）雙核處理器、（多個(gè)）雙核移動(dòng)處理器等。cav控制器112可以包括（未示出的）記憶裝置，諸如包括閃存的非易失性存儲(chǔ)設(shè)備和/或易失性存儲(chǔ)設(shè)備，諸如隨機(jī)存取存儲(chǔ)器（ram）、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（dram）和靜態(tài)ram（sram）。在一些實(shí)施例中，cav控制器112可以包括指令或否則被編程以使得下面討論的方法300被執(zhí)行。為此，可以以硬件、軟件、固件或其任何組合來(lái)實(shí)現(xiàn)過(guò)程300。

在實(shí)施例中，系統(tǒng)100可以以變化的物理樣式或形狀因子來(lái)體現(xiàn)。在一些實(shí)施例中，例如，系統(tǒng)100或其部分可以被實(shí)現(xiàn)為具有無(wú)線能力的移動(dòng)計(jì)算設(shè)備。例如，移動(dòng)計(jì)算設(shè)備可以指的是具有處理系統(tǒng)和移動(dòng)電源或電力供應(yīng)（諸如一個(gè)或多個(gè)電池）的任何設(shè)備。移動(dòng)計(jì)算設(shè)備的一些這樣的示例可以包括個(gè)人計(jì)算機(jī)（pc）、膝上型計(jì)算機(jī)、超級(jí)膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上計(jì)算機(jī)、個(gè)人數(shù)字助理（pda）、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備（例如，智能電話、智能平板計(jì)算機(jī)或智能電視）、移動(dòng)互聯(lián)網(wǎng)設(shè)備（mid）、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備等。

移動(dòng)計(jì)算設(shè)備的示例還可以包括被布置成由人穿戴的計(jì)算機(jī)，諸如手腕計(jì)算機(jī)、手指計(jì)算機(jī)、戒指計(jì)算機(jī)、眼鏡計(jì)算機(jī)、腰帶夾計(jì)算機(jī)、臂帶計(jì)算機(jī)、鞋計(jì)算機(jī)、衣服計(jì)算機(jī)以及其他可穿戴計(jì)算機(jī)。在一些實(shí)施例中，例如，移動(dòng)計(jì)算設(shè)備可以被實(shí)現(xiàn)為能夠執(zhí)行計(jì)算機(jī)應(yīng)用以及語(yǔ)音通信和/或數(shù)據(jù)通信的智能電話。盡管可能利用被實(shí)現(xiàn)為智能電話的移動(dòng)計(jì)算設(shè)備作為示例描述了一些實(shí)施例，但是可以領(lǐng)會(huì)，也可以使用其他無(wú)線移動(dòng)計(jì)算設(shè)備來(lái)實(shí)現(xiàn)其他實(shí)施例。實(shí)施例不限于該背景下。

在使用中，數(shù)據(jù)采集設(shè)備102捕捉針對(duì)所觀察的場(chǎng)景的音頻和視頻。如上面所討論的，這樣的音頻和視頻數(shù)據(jù)被空間和時(shí)間對(duì)準(zhǔn)，使得每個(gè)的捕捉域重疊。注意，可以（例如，通過(guò)耦合到監(jiān)視系統(tǒng)的分離的相機(jī)和麥克風(fēng)陣列）分離地捕捉音頻和視頻，并且本公開(kāi)不應(yīng)該被解釋為在該點(diǎn)上是限制的。在一些情況下，所捕捉的音頻和視頻數(shù)據(jù)表示目標(biāo)場(chǎng)景，諸如例如制造設(shè)施中的制造裝備、城市街道或其他可觀察的場(chǎng)景。為了說(shuō)明而提供了這些示例使用情況，并且其不意圖限制本公開(kāi)。

在實(shí)施例中，聲學(xué)圖像控制器108可以被配置成基于（例如，來(lái)自麥克風(fēng)陣列200的）經(jīng)空間濾波的音頻信號(hào)而生成聲學(xué)圖像數(shù)據(jù)以便視覺(jué)上表示所觀察的場(chǎng)景中的聲音能量。如上面所討論的，聲學(xué)圖像關(guān)于標(biāo)準(zhǔn)圖像類似，因?yàn)樗鼈儼?-d像素網(wǎng)格，但不同在于像素的強(qiáng)度與從場(chǎng)景發(fā)出的聲音的強(qiáng)度對(duì)應(yīng)。為此，所生成的聲學(xué)圖像幀的每個(gè)像素的像素強(qiáng)度表示來(lái)自聲音的每個(gè)獨(dú)特的到達(dá)角（方位角和仰角）的聲音強(qiáng)度。一般地，使用諸如例如半透明的著色的熱圖或其他可視的著色之類的遮蔽（mask）將聲學(xué)圖像疊加到相同場(chǎng)景的圖像幀上。在圖5a中描繪了一個(gè)這樣的示例圖像，其描繪了在半導(dǎo)體制造環(huán)境中的濺射機(jī)。如所示，利用具有第一顏色（例如，紅色）的像素的（例如，表示到達(dá)角的）最高強(qiáng)度的那些區(qū)域來(lái)表示從濺射機(jī)的兩個(gè)固定點(diǎn)（在該情況下，點(diǎn)a和b）發(fā)出的聲音。因?yàn)槁曇粼诓煌牡竭_(dá)角較不強(qiáng)烈，所以通過(guò)從第一顏色502褪色（fade）到第二顏色504（例如，紅色到黃色）的像素來(lái)表示強(qiáng)度中的該差異。另外，聲音強(qiáng)度中的其他差異可以通過(guò)從第一顏色502褪色到第二顏色504并且然后到第三顏色506（例如，紅色到黃色、黃色到綠色）的像素來(lái)表示。如所示，相對(duì)聲音強(qiáng)度也由每個(gè)著色的像素所具有的透明度的量來(lái)指示。例如，最接近到達(dá)角的像素（例如，在第一顏色502的區(qū)域內(nèi)著色/漸變的像素）基本上是不透明的。相反，最遠(yuǎn)離到達(dá)角的那些像素包括幾乎透明的遮蔽。在任何這樣的實(shí)施例中，所應(yīng)用的這些顏色和透明度漸變可以是用戶可配置的。應(yīng)領(lǐng)會(huì)，所選取的顏色的確切數(shù)目和特定色調(diào)不特別地與本公開(kāi)相關(guān)并且不應(yīng)被視為限制性的。如下面將進(jìn)一步討論的那樣，依照一些實(shí)施例，聲學(xué)圖像幀中的聲音強(qiáng)度的這些加亮（highlight）的區(qū)域允許所觀察的場(chǎng)景中的聲音源的定位和隔離以及對(duì)其的分析以將聲音與場(chǎng)景內(nèi)的視覺(jué)特征智能相關(guān)。

方法和架構(gòu)

圖3圖示了依照本公開(kāi)的實(shí)施例的用于分析聲學(xué)圖像和聲音以對(duì)所觀察的場(chǎng)景內(nèi)的事件進(jìn)行檢測(cè)和分類的示例方法300。該方法可以例如由圖1的系統(tǒng)100來(lái)實(shí)現(xiàn)，但是根據(jù)本公開(kāi)許多實(shí)施例將是顯然的。圖4到5c圖示了依照一些實(shí)施例的除執(zhí)行在事件分析時(shí)生成的一些示例圖像之外的用于方法300的示例過(guò)程流程。示例方法300包括如下動(dòng)作：采集304所觀察的場(chǎng)景的聲音和圖像數(shù)據(jù)以生成空間和時(shí)間對(duì)準(zhǔn)的聲學(xué)圖像和聲音數(shù)據(jù)、檢測(cè)306在對(duì)準(zhǔn)的聲學(xué)圖像、圖像數(shù)據(jù)（光圖像）和聲音數(shù)據(jù)內(nèi)發(fā)生的一個(gè)或多個(gè)事件、提取308一個(gè)或多個(gè)檢測(cè)到的事件的特征，以及對(duì)場(chǎng)景特征進(jìn)行分類310以憑經(jīng)驗(yàn)或理論上確定引起事件的一個(gè)或多個(gè)狀況，以及輸出312分類數(shù)據(jù)。方法300在動(dòng)作302中開(kāi)始。

如所示，示例方法300包括采集304所觀察的場(chǎng)景的聲音和圖像數(shù)據(jù)以生成空間和時(shí)間對(duì)準(zhǔn)的聲學(xué)圖像和音頻數(shù)據(jù)流的動(dòng)作。參考圖4，經(jīng)由數(shù)據(jù)采集設(shè)備102采集304聲音和圖像數(shù)據(jù)的動(dòng)作在示例過(guò)程流程內(nèi)被表示為數(shù)據(jù)采集模塊402。應(yīng)領(lǐng)會(huì)，在一些示例實(shí)施例中，數(shù)據(jù)采集模塊402可以被精確地稱為場(chǎng)景采集模塊，因?yàn)閿?shù)據(jù)采集模塊402可以被配置成監(jiān)視場(chǎng)景（包括其中的所有對(duì)象）并且不僅是一件特定的裝備或?qū)ο蟆Ｗ⒁?，模塊404、406和408中的每個(gè)可以被實(shí)現(xiàn)為cav控制器112內(nèi)的硬件、軟件或其任何組合。進(jìn)一步注意，cav控制器112可以被配置成執(zhí)行與數(shù)據(jù)采集模塊402的那些例程類似的例程。一些這樣的例程可以包括（多個(gè)）空間對(duì)準(zhǔn)的聲學(xué)圖像403、音頻幀405和（多個(gè)）圖像幀407，生成與音頻數(shù)據(jù)的信號(hào)處理（例如，波束賦形）相關(guān)的聲學(xué)圖像和各種信號(hào)處理。如所示，數(shù)據(jù)采集模塊402包括聲學(xué)圖像設(shè)備，其被配置成捕捉和實(shí)時(shí)地提供聲學(xué)圖像、圖像幀和音頻數(shù)據(jù)。應(yīng)領(lǐng)會(huì)，數(shù)據(jù)采集模塊402可以是可選的或者被不同地配置以使能夠?qū)崿F(xiàn)預(yù)期的場(chǎng)景分析和狀況監(jiān)視。例如，系統(tǒng)100可以被配置成使得先前觀察的場(chǎng)景的所捕捉的音頻和視頻可以從外部位置（例如，存儲(chǔ)器、網(wǎng)絡(luò)位置或其他存儲(chǔ)位置）取回并且使用在本文中不同地公開(kāi)的聲學(xué)分析技術(shù)（例如，通過(guò)模塊404-408）來(lái)處理。另外，并且在實(shí)施例中，數(shù)據(jù)采集模塊402可以由兩個(gè)或更多個(gè)分離的設(shè)備來(lái)實(shí)現(xiàn)，其中每個(gè)設(shè)備被配置成捕捉場(chǎng)景的不同方面（例如，相機(jī)設(shè)備用以捕捉光圖像、聲學(xué)圖像控制器用以再現(xiàn)聲音強(qiáng)度，以及一個(gè)或多個(gè)外部麥克風(fēng)陣列）。為此，在圖4中示出的數(shù)據(jù)采集模塊402不應(yīng)該被解釋為限制性的。其他實(shí)現(xiàn)將根據(jù)本公開(kāi)而是顯然的，諸如混合配置，其中系統(tǒng)100進(jìn)行的現(xiàn)場(chǎng)分析可以被轉(zhuǎn)換成預(yù)期分析，如果期望的話。

在圖4中示出的示例實(shí)施例中，數(shù)據(jù)采集模塊402可以實(shí)現(xiàn)波束賦形或其他適合的技術(shù)用于對(duì)音頻幀進(jìn)行空間濾波以便生成所觀察的場(chǎng)景的空間譜（聲學(xué)圖像數(shù)據(jù)）。應(yīng)領(lǐng)會(huì)，可以利用不同于波束賦形的用于空間分析的其他技術(shù)并且其在本公開(kāi)的范圍內(nèi)。雖然波束賦形技術(shù)可以被有利地用來(lái)生成經(jīng)空間濾波的音頻和聲學(xué)圖像二者，但是用于空間分析的其他類似的技術(shù)不生成經(jīng)空間濾波的音頻。代之以，它們產(chǎn)生空間譜（例如，聲學(xué)圖像）。例如，兩個(gè)這樣的技術(shù)被稱為多信號(hào)分類（music）算法和經(jīng)由旋轉(zhuǎn)不變技術(shù)估計(jì)信號(hào)參數(shù)（esprit）。這樣的技術(shù)可以用來(lái)生成高分辨率聲學(xué)圖像。為此，除了通過(guò)波束賦形技術(shù)生成的聲學(xué)圖像之外，或者作為對(duì)通過(guò)波束賦形技術(shù)生成的聲學(xué)圖像的替代，可以使用這些聲學(xué)圖像。

盡管下面討論的示例實(shí)施例引用所謂的“延遲和加和”或“迫零”波束賦形的一個(gè)具體實(shí)現(xiàn)，但是其他波束賦形技術(shù)將根據(jù)本公開(kāi)而是顯然的。例如，還可以利用濾波和加和以及自適應(yīng)的波束賦形技術(shù)。如先前所討論的，聲學(xué)成像基于相對(duì)于在多個(gè)點(diǎn)（例如，麥克風(fēng)陣列的每個(gè)空間位置）處檢測(cè)到的聲壓的變化的像素強(qiáng)度使起源（origin）可視化為聲波的強(qiáng)度。在圖2的示例麥克風(fēng)陣列200的背景內(nèi)，每個(gè)麥克風(fēng)設(shè)備202可以被定位在預(yù)定義的區(qū)域中的離散點(diǎn)處。為此，來(lái)自麥克風(fēng)陣列200的所有麥克風(fēng)信號(hào)的疊加使能夠?qū)崿F(xiàn)對(duì)每個(gè)作為目標(biāo)的空間點(diǎn)的聲壓的估計(jì)，其轉(zhuǎn)化成所生成的聲學(xué)圖像的一個(gè)或多個(gè)像素。為了集中在所觀察的場(chǎng)景中或以其他方式將所觀察的場(chǎng)景中的某個(gè)點(diǎn)作為目標(biāo)，麥克風(fēng)陣列200不一定必須被物理上移動(dòng)。代之以，通過(guò)跨麥克風(fēng)施加一系列適當(dāng)?shù)难舆t并且將來(lái)自所述麥克風(fēng)的所有信號(hào)加和，可以集中在（例如，引向）所觀察的場(chǎng)景中的特定點(diǎn)（例如，到達(dá)角）。該延遲和加和技術(shù)本質(zhì)上以使從所觀察的場(chǎng)景中的目標(biāo)點(diǎn)發(fā)出的所有聲波同相并且因此當(dāng)被加在一起時(shí)放大了從該目標(biāo)點(diǎn)發(fā)出的聲波的這樣的方式使來(lái)自每個(gè)麥克風(fēng)的信號(hào)延遲。從所觀察的場(chǎng)景中的其他（非作為目標(biāo)的）點(diǎn)發(fā)出的那些聲波是異相的，并且因此被減弱。

作為示例，考慮實(shí)現(xiàn)一些這樣的波束賦形技術(shù)的數(shù)據(jù)采集設(shè)備102的一個(gè)具體示例實(shí)施例。如在圖2中所示，麥克風(fēng)陣列200包括在總計(jì)64個(gè)離散空間點(diǎn)的線性陣列中的離散位置中的8x8麥克風(fēng)模式以測(cè)量聲壓。在該示例實(shí)施例中，每個(gè)麥克風(fēng)202具有相同的靈敏度和頻率響應(yīng)并且被配置成產(chǎn)生以例如16khz以16位字深采樣的聲音信號(hào)。另外，圖像傳感器104可以被配置成產(chǎn)生具有例如256x256（65536個(gè)像素）分辨率的圖像幀。為了清楚和容易計(jì)算的目的，在本文中公開(kāi)的示例實(shí)施例假設(shè)16khz音頻采樣速率和256x256（65536個(gè)像素）圖像幀，但應(yīng)領(lǐng)會(huì)，其他音頻采樣速率和圖像分辨率可以被按需利用并且在本公開(kāi)的范圍內(nèi)。如上面所討論的，麥克風(fēng)陣列106和圖像傳感器104被配置成使得它們空間對(duì)準(zhǔn)。另外，麥克風(fēng)陣列106和圖像傳感器104可以基于公共時(shí)鐘或用以確保數(shù)據(jù)流同步（例如，接近實(shí)時(shí)或通過(guò)后處理例程實(shí)現(xiàn)）的其他定時(shí)方案而時(shí)間對(duì)準(zhǔn)。

在第一階段期間，并且依照實(shí)施例，聲學(xué)圖像控制器108將來(lái)自麥克風(fēng)陣列200的每個(gè)麥克風(fēng)202的聲音信號(hào)劃分成重疊的連續(xù)幀，其具有例如在512個(gè)樣本內(nèi)表示的32毫秒的持續(xù)時(shí)間。然后在聲學(xué)圖像控制器108內(nèi)通過(guò)波束賦形算法來(lái)處理來(lái)自每個(gè)麥克風(fēng)202（例如，64個(gè)幀）的同步幀。波束賦形算法的結(jié)果是65536個(gè)經(jīng)空間濾波的音頻幀405，其與通過(guò)圖像傳感器104捕捉的每個(gè)圖像幀對(duì)應(yīng)。不同地闡述，波束賦形技術(shù)可以使能夠?qū)崿F(xiàn)經(jīng)由空間濾波器對(duì)所捕捉的音頻信號(hào)的數(shù)字操縱，使得65536個(gè)獨(dú)特的到達(dá)角中的每個(gè)與經(jīng)濾波的音頻幀對(duì)應(yīng)。

在第二階段期間，并且依照實(shí)施例，通過(guò)計(jì)算這些音頻幀405中的每個(gè)中的能量（強(qiáng)度）和將強(qiáng)度轉(zhuǎn)換成2-d網(wǎng)格以再現(xiàn)256x256圖像（例如，65536個(gè)像素）而生成聲學(xué)圖像403。然后將得到的聲學(xué)圖像403、對(duì)應(yīng)的音頻幀405和圖像幀407提供給事件檢測(cè)模塊404。

參考圖4并且另外參考圖3，在數(shù)據(jù)采集模塊402生成包括聲學(xué)圖像403、音頻幀405和圖像幀407的數(shù)據(jù)流之后，方法以檢測(cè)306這些數(shù)據(jù)流內(nèi)的事件而繼續(xù)。參考圖4，利用示例過(guò)程流程將檢測(cè)306由數(shù)據(jù)采集模塊402生成的數(shù)據(jù)流內(nèi)的事件表示為事件檢測(cè)模塊404。在一般意義上，并且依照實(shí)施例，事件檢測(cè)模塊404針對(duì)指示或以其他方式暗示在所觀察的場(chǎng)景中發(fā)生的事件的在聲場(chǎng)中的改變的位置來(lái)分析聲學(xué)圖像的流。

在實(shí)施例中，事件檢測(cè)模塊404通過(guò)確定409連續(xù)的聲學(xué)圖像幀403之間的絕對(duì)差而產(chǎn)生增量圖像（deltaimage）的流。在一些情況下，基于計(jì)算連續(xù)聲學(xué)圖像之間的平方距離來(lái)生成增量圖像。在其他情況下，可以利用其他適合的圖像比較例程來(lái)生成增量圖像，如將根據(jù)本公開(kāi)而顯然的那樣。在任何這樣的情況下，基于將增量圖像內(nèi)的像素值與閾值強(qiáng)度值進(jìn)行比較來(lái)確定每個(gè)增量圖像中的峰值。在實(shí)施例中，閾值是用戶可配置的或否則預(yù)先確定的，并且表示最小像素強(qiáng)度，由此超過(guò)該值的增量像素強(qiáng)度被登記為與事件相關(guān)。為此，當(dāng)增量像素超過(guò)閾值時(shí)，利用像素的索引來(lái)定義遮蔽413并且將遮蔽413應(yīng)用在圖像幀407內(nèi)。在實(shí)施例中，所應(yīng)用的遮蔽413包括長(zhǎng)方形形狀或其他幾何形狀（例如，圓、正方形或其他形狀），其指示事件區(qū)域（或位置），在本文中也被稱為感興趣的區(qū)域。關(guān)于所應(yīng)用的遮蔽413的參數(shù)可以是用戶定義的并且可以包括例如線厚度、線顏色、拐角四舍五入值和線類型（例如，折線、連續(xù)線或虛線）。另外，諸如所應(yīng)用的遮蔽413的高度和寬度之類的參數(shù)可以是預(yù)先確定的和/或用戶供應(yīng)的。

圖5b描繪了依照本公開(kāi)的實(shí)施例的由事件檢測(cè)模塊404輸出的一個(gè)示例中間圖像幀。如所示，得到的圖像是合成圖像，其包括圖像幀407（描繪制造裝備）、重疊的聲學(xué)圖像幀403和所應(yīng)用的遮蔽413。并且如在圖5b的具體示例中所示，兩個(gè)不同的事件（事件1、事件2）和對(duì)應(yīng)的事件區(qū)域被檢測(cè)到并且基于所應(yīng)用的遮蔽413被在得到的圖像內(nèi)指示。在該具體示例的背景內(nèi)，這兩個(gè)經(jīng)標(biāo)識(shí)的事件與從所觀察的場(chǎng)景內(nèi)的兩個(gè)不同點(diǎn)發(fā)出的聲音直接相關(guān)。如上面所討論的，并且依照實(shí)施例，音頻幀405和圖像幀407可以被（例如，通過(guò)公共視點(diǎn)和/或?qū)?zhǔn)例程）空間和時(shí)間配準(zhǔn)。為此，根據(jù)實(shí)施例，所應(yīng)用的遮蔽413使得事件檢測(cè)模塊404能夠針對(duì)每個(gè)相應(yīng)事件隔離/定位（多個(gè)）圖像幀407和對(duì)應(yīng)的（多個(gè)）聲學(xué)圖像幀403的對(duì)應(yīng)部分，使得每個(gè)事件可以被單獨(dú)地處理和分類。在實(shí)施例中，與每個(gè)所遮蔽的區(qū)域413相關(guān)聯(lián)的音頻幀可以被加和和求平均以再現(xiàn)針對(duì)每個(gè)相應(yīng)事件的音頻幀?？梢岳糜糜谝纛l信號(hào)處理的其他適合的技術(shù)來(lái)再現(xiàn)針對(duì)每個(gè)事件的音頻幀，如將根據(jù)本公開(kāi)而顯然的那樣。在一些情況下，聲學(xué)圖像數(shù)據(jù)和圖像數(shù)據(jù)的相關(guān)和隔離的部分可以被稱為所謂的“塊（patch）”。在實(shí)施例中，將聲學(xué)圖像數(shù)據(jù)的這些塊連同針對(duì)每個(gè)事件的再現(xiàn)的音頻幀一起提供給特征提取模塊406。

進(jìn)一步參考圖3，在通過(guò)事件檢測(cè)模塊404檢測(cè)到一個(gè)或多個(gè)事件之后，方法以從隔離的事件區(qū)域/塊提取308特征而繼續(xù)。參考圖4，在示例過(guò)程流程內(nèi)將從隔離的事件區(qū)域/塊提取308特征表示為特征提取模塊406。如所示，聲學(xué)圖像數(shù)據(jù)、圖像數(shù)據(jù)和音頻幀的每個(gè)部分由對(duì)應(yīng)的特征提取例程來(lái)處理?，F(xiàn)在將依次討論這些特征提取例程中的每個(gè)。

在實(shí)施例中，經(jīng)由尺度不變特征變換（sift）或用于從圖像提取顯著的/相關(guān)的特征的其他適合的例程來(lái)分析聲學(xué)圖像和圖像數(shù)據(jù)二者的區(qū)域/塊內(nèi)的視覺(jué)特征。在一些情況下，sift和基于sift的衍生例程特別良好地適于補(bǔ)償小量的移動(dòng)，由于例如不穩(wěn)定的手握著包括系統(tǒng)100的智能設(shè)備或者因?yàn)樗^察的場(chǎng)景中的移動(dòng)。這樣的sift處理的結(jié)果包括對(duì)象標(biāo)識(shí)和對(duì)象的所謂的“特征描述”。每個(gè)可以被用來(lái)執(zhí)行對(duì)象識(shí)別。如根據(jù)本公開(kāi)將領(lǐng)會(huì)的，這樣的方法特別有利，因?yàn)榛靵y和部分遮擋之中的對(duì)象仍可以被可靠地標(biāo)識(shí)。

在實(shí)施例中，可以分析由事件檢測(cè)模塊404生成的來(lái)自每個(gè)事件的音頻內(nèi)容以識(shí)別聲音和/或執(zhí)行語(yǔ)音識(shí)別。在實(shí)施例中，如將根據(jù)本公開(kāi)而顯然的，可以使用梅爾頻率倒譜系數(shù)（mfcc）或其他適合的聲音分析例程來(lái)分析音頻內(nèi)容。在實(shí)施例中，mfcc特別良好地適于一定范圍的應(yīng)用，因?yàn)閙fcc通常用在語(yǔ)音識(shí)別和聲音場(chǎng)景分析二者中。

在實(shí)施例中，在依照上面討論的特征提取例程針對(duì)每個(gè)事件提取視覺(jué)和音頻特征之后，然后將導(dǎo)出的特征發(fā)送到特征標(biāo)準(zhǔn)化和向量化模塊415。在該實(shí)施例中，所提取的特征（例如，來(lái)自聲學(xué)圖像塊、圖像塊和再現(xiàn)的音頻幀）被組合和聚集以針對(duì)每個(gè)檢測(cè)到的聲音事件創(chuàng)建特征向量。在實(shí)施例中，特征向量可以包括一個(gè)或多個(gè)格式，包括例如二進(jìn)制數(shù)據(jù)結(jié)構(gòu)、xml、json或其他適合的機(jī)器可讀格式。如下面將討論的，聲學(xué)圖像數(shù)據(jù)、圖像數(shù)據(jù)和音頻內(nèi)容的該組合形成多維事件簽名，其可以被在本文中公開(kāi)的各種技術(shù)用來(lái)執(zhí)行復(fù)雜的場(chǎng)景分析。如將領(lǐng)會(huì)的，這些技術(shù)使能夠?qū)崿F(xiàn)在復(fù)雜的聲音環(huán)境中的準(zhǔn)確的場(chǎng)景分析，其中可以在干擾的不和諧音（背景噪聲、非關(guān)鍵噪聲或任何其他普通的或否則不重要的噪聲）之中辨別兩個(gè)或更多個(gè)共現(xiàn)的聲音。在實(shí)施例中，特征提取模塊406然后向分類模塊408提供針對(duì)每個(gè)事件的特征向量。

進(jìn)一步參考圖3，在從每個(gè)事件提取308特征并且生成針對(duì)每個(gè)事件的特征向量（多維事件簽名）之后，方法以對(duì)場(chǎng)景特征進(jìn)行分類310以確定事件分類和關(guān)聯(lián)的元數(shù)據(jù)（補(bǔ)充數(shù)據(jù)）而繼續(xù)。參考圖4，在示例過(guò)程流程內(nèi)將根據(jù)針對(duì)每個(gè)檢測(cè)到的事件的特征向量對(duì)事件特征進(jìn)行分類310表示為分類模塊408。

在實(shí)施例中，分類模塊408嘗試根據(jù)由特征提取模塊406生成的對(duì)應(yīng)的特征向量將每個(gè)事件進(jìn)行分類。在一些情況下，基于相對(duì)于多個(gè)預(yù)先訓(xùn)練的模型對(duì)特征向量評(píng)分來(lái)執(zhí)行分類。更一般地，預(yù)先訓(xùn)練的模型可以包括聲學(xué)和視覺(jué)簽名，其允許聲音事件與事件種類相關(guān)（例如，利用概率分布）或否則分類到事件種類。為此，在本文中不同地公開(kāi)的技術(shù)利用聲音事件和其特定特性對(duì)每個(gè)事件加“指印”，并且利用那些指印憑經(jīng)驗(yàn)和/或理論上確定導(dǎo)致那些事件的原因。為此，在本文中不同地公開(kāi)的技術(shù)有利地融合光數(shù)據(jù)、聲學(xué)圖像數(shù)據(jù)和聲音數(shù)據(jù)。如根據(jù)本公開(kāi)將領(lǐng)會(huì)的，可以利用其他適合的機(jī)器學(xué)習(xí)技術(shù)來(lái)構(gòu)造和分析這樣的指印。另外，這些生成的指印可以被存儲(chǔ)并且在后續(xù)分析期間利用（例如，用于聲學(xué)監(jiān)視系統(tǒng)100的進(jìn)行的訓(xùn)練）。

在利用基于gmm的機(jī)器學(xué)習(xí)的一個(gè)具體示例中，可以針對(duì)每個(gè)事件種類先驗(yàn)地預(yù)先確定29維gmm（13維分別用于聲學(xué)圖像、圖像和聲音）。在這些情況下，在例如設(shè)備的制造期間配置預(yù)定義的事件模型。在其他情況下，隨時(shí)間過(guò)去通過(guò)例如訓(xùn)練例程或通過(guò)添加和/或更新來(lái)自外部位置（例如，網(wǎng)絡(luò)服務(wù)器、usb拇指驅(qū)動(dòng)器或其他位置）的模型，這些預(yù)定義的事件模型被學(xué)習(xí)或否則添加到系統(tǒng)100。在一個(gè)這樣的示例情況下，系統(tǒng)100可以向用戶呈現(xiàn)與檢測(cè)到的事件相關(guān)的信息（例如，事件的視覺(jué)圖像、來(lái)自事件的聲音樣本，或者其他隔離的和提取的特征），由此用戶可以選擇用戶接口特征來(lái)手動(dòng)地將事件分類和存儲(chǔ)（例如，作為gmm模型），使得可以在將來(lái)適當(dāng)?shù)刈R(shí)別相同或否則類似的事件的將來(lái)發(fā)生。另外，用戶可以將補(bǔ)充數(shù)據(jù)與所存儲(chǔ)的事件相關(guān)聯(lián)，其包括例如指南、筆記、照片或任何其他相關(guān)的元數(shù)據(jù)。在任何這樣的情況下，可以使用期望最大化（em）算法來(lái)計(jì)算用于每個(gè)模型的參數(shù)。為此，可以將每個(gè)特征向量傳遞給每個(gè)gmm，導(dǎo)致針對(duì)每個(gè)種類的評(píng)分，其中評(píng)分被跨種類標(biāo)準(zhǔn)化（例如，到1）使得針對(duì)每個(gè)事件生成后驗(yàn)的概率分布。因此，系統(tǒng)100可以基于最高評(píng)分模型中的一個(gè)或多個(gè)來(lái)推斷每個(gè)事件的一個(gè)或多個(gè)狀況。

如根據(jù)本公開(kāi)將領(lǐng)會(huì)的，模型種類可以表示以其聲學(xué)簽名為特征的種種狀況，包括例如機(jī)器部件故障（例如，螺線管失效、不合規(guī)范的壓縮機(jī)循環(huán)，或其他異常狀況）。另外，模型種類可以表示在這樣的機(jī)器內(nèi)發(fā)生的各種中間狀態(tài)并且可以用來(lái)推斷例如進(jìn)行的狀況的過(guò)程，其包括狀況是否可能引起緊迫的問(wèn)題（例如，關(guān)鍵狀態(tài)或高嚴(yán)重性級(jí)別）或者狀況是否指示問(wèn)題的一些其他階段（例如，建議將來(lái)的維護(hù)可能必要或者事件可忽略或否則具有低嚴(yán)重性的階段）。為此，并且依照實(shí)施例，系統(tǒng)100可以向用戶或其他感興趣方（例如，另一計(jì)算機(jī)或過(guò)程）提供對(duì)機(jī)器內(nèi)的潛在問(wèn)題的早期警告。另外，系統(tǒng)100可以包括管理事件檢測(cè)的相對(duì)靈敏度的用戶定義的設(shè)置，由此用戶可以在將事件傳播給用戶之前細(xì)調(diào)事件的最低嚴(yán)重性級(jí)別。

應(yīng)進(jìn)一步領(lǐng)會(huì)，可以使用這些模型來(lái)虛擬表示任何種類的狀況相關(guān)的聲音（例如，基于其聲學(xué)和視覺(jué)簽名），并且不一定限于工業(yè)機(jī)器監(jiān)視和為該環(huán)境特有的聲音。例如，模型可以表示狀況事件，僅舉幾例，諸如在城市環(huán)境中的運(yùn)載工具相關(guān)的噪聲（例如，排氣裝置、引擎部件、路面上的輪胎的聲音，以及其他這樣的聲音）、在戰(zhàn)場(chǎng)上的敵人移動(dòng)/活動(dòng)噪聲（例如，迫擊炮火、槍聲、軍隊(duì)移動(dòng)、運(yùn)載工具移動(dòng)等），以及對(duì)災(zāi)難地帶內(nèi)的人類生命（例如，被困受害者）的指示。

在較一般的意義上，這些模型允許考慮事件的簽名的每個(gè)方面/維度，從而做出關(guān)于什么狀況可能引起聲音事件的經(jīng)驗(yàn)的或否則理論的推斷。例如，可以通過(guò)每個(gè)gmm來(lái)分析事件簽名的聲學(xué)維度的那些方面以登記類似性（例如，諸如在像素強(qiáng)度、像素位置之間的類似性，以及其他聲學(xué)類似性），并且因此最終產(chǎn)生得到的評(píng)分。在其他示例中，可以組合和分析簽名的其他方面和維度，使得在總體評(píng)分中考慮到聲音識(shí)別和對(duì)象標(biāo)識(shí)中的每個(gè)。另外，應(yīng)領(lǐng)會(huì)，這樣的聲音識(shí)別和對(duì)象標(biāo)識(shí)可以被組合，從而提供背景感知的理解，其包括例如部分地基于確認(rèn)經(jīng)標(biāo)識(shí)的對(duì)象能夠產(chǎn)生這樣的聲音而證實(shí)經(jīng)識(shí)別/標(biāo)識(shí)的聲音。在任何這樣的情況下，如果在分類期間利用的每個(gè)模型的評(píng)分超過(guò)預(yù)先確定的閾值達(dá)概率（例如，25%、50%等），則事件向量被認(rèn)為與事件模型相關(guān)或否則被標(biāo)記為與事件模型相關(guān)。在其他實(shí)施例中，如果概率不超過(guò)預(yù)先確定的閾值，則忽略該事件，使得不向用戶顯示警報(bào)或其他指示符（例如，以減輕誤報(bào)）。替代地，通過(guò)訓(xùn)練例程和/或在其他分類模型細(xì)化期間，可以保留不超過(guò)預(yù)先確定的閾值的那些概率供將來(lái)使用。事件何時(shí)可以被忽略的一些這樣的情況包括不使預(yù)先存儲(chǔ)的模型配置用于該事件。另外，并且其他這樣的情況，分析為指示機(jī)器的正常操作的事件可能不一定向用戶報(bào)告或針對(duì)進(jìn)一步動(dòng)作將事件升級(jí)。在其他實(shí)施例中，這樣的事件可能沒(méi)有被忽略并且可以充當(dāng)用于訓(xùn)練例程的催化劑，如上面所討論的，或者向用戶提供機(jī)器/目標(biāo)場(chǎng)景正在正常/預(yù)期參數(shù)內(nèi)操作的指示。依照實(shí)施例，檢測(cè)到的每個(gè)事件可以導(dǎo)致評(píng)分高于閾值的多個(gè)模型。在該實(shí)施例中，每個(gè)事件可以包括相對(duì)于具有最高評(píng)分的那些模型命令的多個(gè)評(píng)分，并且因此是引起事件的最可能的狀況。

進(jìn)一步參考圖3，在事件分類310之后，方法以輸出312分類數(shù)據(jù)而繼續(xù)。在實(shí)施例中，然后可以將得到的事件分類提供給用戶接口或其他高級(jí)別過(guò)程。如上面所討論的，可以利用事件分類評(píng)分來(lái)執(zhí)行各種分類后動(dòng)作，其包括經(jīng)由用戶接口向用戶提供警報(bào)消息、自動(dòng)地執(zhí)行后續(xù)動(dòng)作（例如，關(guān)閉機(jī)器、閃光、切斷繼電器、響鈴、發(fā)送電子郵件、發(fā)送sms）以及（例如，在數(shù)據(jù)庫(kù)或其他電子數(shù)據(jù)存儲(chǔ)區(qū)域中）記錄事件分類中的至少一個(gè)。在實(shí)施例中，這些動(dòng)作與相應(yīng)種類的模型相關(guān)聯(lián)或否則可在分類被確定之后可取回。另外，可以向用戶提供事件分類的一個(gè)或多個(gè)視覺(jué)表示，其包括例如對(duì)最高概率事件種類的指示（例如，人類可讀描述或圖像）和多個(gè)其他高概率的事件分類（例如，以從最高概率到最低概率的遞減次序）的指示。

在實(shí)施例中，還可以經(jīng)由用戶接口通過(guò)警報(bào)消息來(lái)提供關(guān)于所述一個(gè)或多個(gè)事件分類的補(bǔ)充數(shù)據(jù)。一些這樣的補(bǔ)充數(shù)據(jù)可以是元數(shù)據(jù)，僅舉幾例，其包括例如場(chǎng)景內(nèi)的發(fā)出聲音的對(duì)象的所謂的“易懂的英語(yǔ)”名稱、用以對(duì)目標(biāo)機(jī)器執(zhí)行操作（例如，修理或其他維護(hù)）的指令、用戶定義的筆記/標(biāo)簽、指南、藍(lán)圖、特定機(jī)器的圖片（例如，包括剖視圖、3-d模型）、用于機(jī)器的服務(wù)標(biāo)簽（例如，其標(biāo)識(shí)號(hào)碼）、gps位置（地理位置）、檢測(cè)的日期、檢測(cè)的時(shí)間、建筑標(biāo)識(shí)符、要呼叫的電話號(hào)碼、要通知的電子郵件地址，以及檢測(cè)到的事件分類的文本描述。替代地，或除了元數(shù)據(jù)之外，補(bǔ)充數(shù)據(jù)可以是音頻和視頻數(shù)據(jù)，其包括例如來(lái)自事件的聲音樣本、來(lái)自所觀察的場(chǎng)景的視頻/圖像（例如，具有或不具有疊加到圖像上的事件指示符的增強(qiáng)現(xiàn)實(shí)），或所觀察的場(chǎng)景的聲學(xué)圖像數(shù)據(jù)、音頻幀和圖像幀的任何部分或組合，具有或不具有元數(shù)據(jù)疊加。

圖5c描繪了依照本公開(kāi)的實(shí)施例的由事件分類模塊408輸出的一個(gè)這樣的示例圖像幀。如所示，利用兩個(gè)事件（例如，圖5b的事件1和事件2）和事件標(biāo)簽（螺線管和活塞）來(lái)描繪得到的圖像。在實(shí)施例中，諸如在圖5c中描繪的示例圖像之類的圖像可以被再現(xiàn)和呈現(xiàn)在電子設(shè)備（例如，具有顯示器的智能電話、膝上型計(jì)算機(jī)或其他設(shè)備）的顯示器上。在該實(shí)施例中，電子設(shè)備可以在增強(qiáng)現(xiàn)實(shí)模式中呈現(xiàn)多個(gè)這些圖像，由此顯示器呈現(xiàn)所觀察的場(chǎng)景的實(shí)時(shí)圖像，其具有描繪事件的聲學(xué)熱圖和/或元數(shù)據(jù)的疊加。注意，可以以暗示所確定的事件被認(rèn)為正常還是異常的方式對(duì)長(zhǎng)方形遮蔽413著色。例如，在圖5c中，可以以綠色長(zhǎng)方形來(lái)框定（frame）螺線管位置，并且標(biāo)簽也可以是綠色的，從而指示正常操作（例如，噪聲，但噪聲被分類為機(jī)器的正常操作）。相反，可以以紅色長(zhǎng)方形來(lái)框定活塞位置，其中用于事件（“活塞”）的標(biāo)簽也是紅色的，從而指示異常操作（例如，在機(jī)器中發(fā)生的潛在故障）?？梢允褂迷S多其他這樣的顏色編碼方案，如將領(lǐng)會(huì)的。盡管事件區(qū)域被描繪為長(zhǎng)方形，但應(yīng)領(lǐng)會(huì)，可能沒(méi)有示出這樣的長(zhǎng)方形或類似框架。同樣地，應(yīng)領(lǐng)會(huì)，所描繪的形狀不限于長(zhǎng)方形并且可以是例如正方形、圓和或梯形。另外，用于異常聲音區(qū)域的形狀可以與用于正常聲音區(qū)域的形狀不同。并且，在一些情況下，可以使用不同類型的加亮（例如，顏色、圖像、符號(hào)）和動(dòng)畫（例如，閃光的文本、閃爍的符號(hào)和其他效果）來(lái)指示每個(gè)區(qū)域。另外，應(yīng)領(lǐng)會(huì)，聲音可能（例如，通過(guò)實(shí)現(xiàn)聲學(xué)監(jiān)視系統(tǒng)100的設(shè)備的揚(yáng)聲器）伴隨這些圖像，諸如例如包括預(yù)先記錄的表達(dá)（例如，“在螺線管x中檢測(cè)到異常狀態(tài)；可能需要維護(hù)”）的狀況的聽(tīng)覺(jué)呈現(xiàn)。在實(shí)施例中，這些圖像可以被靜態(tài)地顯示或在增強(qiáng)現(xiàn)實(shí)模式中顯示給用戶，由此所觀察的場(chǎng)景的一個(gè)或多個(gè)圖像包括聲學(xué)熱圖和元數(shù)據(jù)疊加。

示例使用情況

如上面關(guān)于圖1所討論的，用于在本文中公開(kāi)的場(chǎng)景分析技術(shù)的許多附加應(yīng)用應(yīng)當(dāng)根據(jù)本公開(kāi)是顯然的。一個(gè)這樣的示例包括在城市或否則高業(yè)務(wù)量區(qū)域中的場(chǎng)景分析。在該示例中，可以檢測(cè)到事件，諸如例如汽車碰撞、泛洪、爆炸、打破窗戶（例如，搶劫）或其他典型的事件，其可以指示警察服務(wù)、消防和緊急醫(yī)療服務(wù)（ems）可能是必要的。在實(shí)施例中，事件的檢測(cè)可能導(dǎo)致位置連同事件的任何關(guān)聯(lián)的元數(shù)據(jù)一起被傳輸?shù)竭@樣的第一響應(yīng)者。另外，在一些應(yīng)用中，對(duì)進(jìn)入場(chǎng)景的運(yùn)載工具的數(shù)目計(jì)數(shù)可能是必要的，并且在一些情況下，標(biāo)識(shí)運(yùn)載工具是汽車還是卡車也可能是必要的。為此，汽車相對(duì)于卡車產(chǎn)生的獨(dú)特聲音可以被建模并且用來(lái)執(zhí)行這樣的分析。其他這樣的應(yīng)用將根據(jù)本公開(kāi)而是顯然的。

另一這樣的示例是包括戰(zhàn)場(chǎng)的軍事環(huán)境。在這些環(huán)境中，潛在的敵人位置可以通過(guò)其發(fā)出的聲音來(lái)定位和分類。一些這樣的示例聲音可以是敵人武器的炮火（例如，ak-47的獨(dú)特顫振）、迫擊炮彈被丟到管中的砰的一聲、嗓音（例如，包括講特定語(yǔ)言的那些，將成人嗓音與孩子區(qū)分開(kāi)、將男人與女人的嗓音區(qū)分開(kāi)、檢測(cè)所講的特定語(yǔ)言），以及指示敵人/友好活動(dòng)的任何其他聲音。在實(shí)施例中，可以將敵人位置（和分類描述）呈現(xiàn)為疊加到戰(zhàn)場(chǎng)的實(shí)時(shí)視頻上的長(zhǎng)方形或其他加亮。在該實(shí)施例中，可以在增強(qiáng)現(xiàn)實(shí)模式中將這些疊加的圖像呈現(xiàn)在顯示器上，諸如例如頭盔中、基于地面的運(yùn)載工具、航空器或例如觀察戰(zhàn)場(chǎng)的其他軍用運(yùn)載工具的平視顯示器。

又一這樣的示例是家庭環(huán)境。在該環(huán)境中，可以對(duì)聲音進(jìn)行檢測(cè)和分類以（例如，基于課的中斷、門被打破或其他類似的入室行竊噪聲）確定搶劫是否正在發(fā)生。該環(huán)境的其他噪聲還可能對(duì)分類目的有用，并且可以包括例如水淹、煙霧報(bào)警器響起、炮火的聲音，僅舉幾例。

又一示例在災(zāi)難地帶中的災(zāi)難恢復(fù)的場(chǎng)地中。在該環(huán)境中，使用聲音來(lái)識(shí)別災(zāi)難地帶中的對(duì)象可能對(duì)于發(fā)現(xiàn)被困受害者、標(biāo)識(shí)氣體泄漏、爆裂的管道、來(lái)自第一響應(yīng)者“人下型”設(shè)備（例如，其在第一響應(yīng)者被確定為水平時(shí)發(fā)出聲音）的砰是有利的。許多變化將根據(jù)本公開(kāi)是顯然的，并且這些提供的示例環(huán)境不意圖是限制性的。

分布式場(chǎng)景分析系統(tǒng)

圖6圖示了依照本公開(kāi)的實(shí)施例配置的分布式聲學(xué)監(jiān)視系統(tǒng)600。如可以看見(jiàn)的，系統(tǒng)包括多個(gè)數(shù)據(jù)采集設(shè)備102，其通信地耦合到網(wǎng)絡(luò)601。另外，系統(tǒng)包括一個(gè)或多個(gè)聲學(xué)監(jiān)視系統(tǒng)100’，其分別通信地耦合到網(wǎng)絡(luò)601和網(wǎng)絡(luò)605。在實(shí)施例中，每個(gè)聲學(xué)監(jiān)視系統(tǒng)100’可以包括圖1的聲學(xué)監(jiān)視系統(tǒng)100的分離的實(shí)現(xiàn)。在該實(shí)施例中，每個(gè)聲學(xué)監(jiān)視系統(tǒng)100’可以是獨(dú)立系統(tǒng)（例如，具有數(shù)據(jù)采集設(shè)備102、聲學(xué)圖像控制器108、圖像控制器110和cav控制器112）或者是分布式的，使得一個(gè)或多個(gè)遠(yuǎn)程數(shù)據(jù)采集設(shè)備102提供音頻/視頻場(chǎng)景數(shù)據(jù)。另外，每個(gè)聲學(xué)監(jiān)視系統(tǒng)100’可以是具有獨(dú)立的質(zhì)量的混合系統(tǒng)（具有一個(gè)或多個(gè)采集設(shè)備的自包含系統(tǒng)）并且還從一個(gè)或多個(gè)遠(yuǎn)程采集設(shè)備102接收音頻/視頻數(shù)據(jù)的一部分。為此，聲學(xué)監(jiān)視系統(tǒng)100’可以實(shí)時(shí)或接近實(shí)時(shí)地執(zhí)行聲學(xué)監(jiān)視和/或以獨(dú)立的或分布式的方式（例如，對(duì)先前捕捉的場(chǎng)景數(shù)據(jù)）執(zhí)行預(yù)期分析。

如所示，分布式聲學(xué)監(jiān)視系統(tǒng)600可以包括兩個(gè)或更多個(gè)網(wǎng)絡(luò)（601和605），每個(gè)包括聲學(xué)監(jiān)視設(shè)備和多個(gè)采集設(shè)備。注意，分布式聲學(xué)監(jiān)視系統(tǒng)600不限于特定數(shù)目的網(wǎng)絡(luò)，或那些網(wǎng)絡(luò)內(nèi)的聲學(xué)監(jiān)視系統(tǒng)/采集設(shè)備。為此，在圖6中示出的網(wǎng)絡(luò)布置不應(yīng)該被認(rèn)為是限制性的。如所示，兩個(gè)網(wǎng)絡(luò)601和605可以使能夠?qū)崿F(xiàn)協(xié)作的數(shù)據(jù)采集和聲學(xué)監(jiān)視過(guò)程。例如，網(wǎng)絡(luò)601的聲學(xué)監(jiān)視系統(tǒng)100’可以遠(yuǎn)程地訪問(wèn)網(wǎng)絡(luò)605中的來(lái)自任何采集設(shè)備102的場(chǎng)景數(shù)據(jù)。同樣地，網(wǎng)絡(luò)605的聲學(xué)監(jiān)視系統(tǒng)100’可以訪問(wèn)網(wǎng)絡(luò)601中的來(lái)自數(shù)據(jù)采集設(shè)備102中的任一個(gè)的場(chǎng)景數(shù)據(jù)。在任何事件中，應(yīng)領(lǐng)會(huì)，這樣的布置使得一些聲學(xué)監(jiān)視系統(tǒng)能夠分析場(chǎng)景數(shù)據(jù)以對(duì)第一類型的聲音事件進(jìn)行檢測(cè)和分類，而其他聲學(xué)監(jiān)視系統(tǒng)可以對(duì)來(lái)自相同場(chǎng)景、來(lái)自不同角度的相同場(chǎng)景和不同場(chǎng)景中的至少一個(gè)的第二類型的聲音事件進(jìn)行檢測(cè)和分類（例如，用于監(jiān)視或訓(xùn)練目的）。如將領(lǐng)會(huì)的，這在例如利用分而治之方法來(lái)平衡計(jì)算上昂貴的場(chǎng)景分析的工作負(fù)荷時(shí)是特別有利的。同樣地，應(yīng)領(lǐng)會(huì)，來(lái)自不同場(chǎng)景（例如，遠(yuǎn)程場(chǎng)景、不同角度）的數(shù)據(jù)可能對(duì)訓(xùn)練和機(jī)器學(xué)習(xí)有用。例如，新部署的監(jiān)視系統(tǒng)可能通過(guò)能夠訪問(wèn)其他監(jiān)視系統(tǒng)的場(chǎng)景數(shù)據(jù)、模型和在先分類而受益于其他監(jiān)視系統(tǒng)。另外，應(yīng)進(jìn)一步領(lǐng)會(huì)，網(wǎng)絡(luò)601和603中的每個(gè)的聲學(xué)監(jiān)視系統(tǒng)100’分別可以利用來(lái)自數(shù)據(jù)采集設(shè)備102的數(shù)據(jù)來(lái)執(zhí)行進(jìn)行的訓(xùn)練例程，并且不僅在首先部署時(shí)。

在實(shí)施例中，能夠執(zhí)行場(chǎng)景數(shù)據(jù)收集模塊的應(yīng)用服務(wù)器603被配置成訪問(wèn)各種數(shù)據(jù)采集設(shè)備102以從每個(gè)數(shù)據(jù)采集設(shè)備102獲得聲學(xué)圖像、圖像數(shù)據(jù)和音頻樣本。注意，附加的應(yīng)用服務(wù)器603可以被（例如，在網(wǎng)絡(luò)601中和/或網(wǎng)絡(luò)605中）實(shí)現(xiàn)，并且在圖6中示出的實(shí)施例不應(yīng)被視為限制本公開(kāi)?？梢詫⑼ㄟ^(guò)服務(wù)器603接收的場(chǎng)景數(shù)據(jù)存儲(chǔ)在場(chǎng)景數(shù)據(jù)記憶裝置605中。如上面所討論的，可以實(shí)時(shí)或接近實(shí)時(shí)地或者在預(yù)期模式中執(zhí)行場(chǎng)景分析。為此，網(wǎng)絡(luò)601和603的聲學(xué)監(jiān)視系統(tǒng)100’分別可以訪問(wèn)數(shù)據(jù)采集設(shè)備102中的一個(gè)或多個(gè)以接收?qǐng)鼍皵?shù)據(jù)的實(shí)時(shí)流（例如，實(shí)時(shí)傳輸協(xié)議（rtp））。替代地，或除了訪問(wèn)采集設(shè)備之外，一個(gè)或多個(gè)聲學(xué)監(jiān)視系統(tǒng)100’可以經(jīng)由與應(yīng)用服務(wù)器603通信的應(yīng)用編程接口（api）或其他適當(dāng)?shù)牟考?lái)訪問(wèn)存儲(chǔ)在場(chǎng)景數(shù)據(jù)倉(cāng)庫(kù)605內(nèi)的場(chǎng)景數(shù)據(jù)以取回這樣的數(shù)據(jù)。同樣地，一個(gè)或多個(gè)客戶端計(jì)算系統(tǒng)607也可能能夠（例如，經(jīng)由對(duì)基于云的狀況監(jiān)視系統(tǒng)的訂閱或一些其他授權(quán)的使用）訪問(wèn)聲學(xué)監(jiān)視系統(tǒng)100’或數(shù)據(jù)采集設(shè)備102中的一個(gè)或多個(gè)。

網(wǎng)絡(luò)601可以是任何通信網(wǎng)絡(luò)或網(wǎng)絡(luò)的組合，諸如因特網(wǎng)和一個(gè)或多個(gè)本地接入網(wǎng)絡(luò)?？梢允褂脽o(wú)線和有線網(wǎng)絡(luò)技術(shù)，如將領(lǐng)會(huì)的。雖然僅示出了一個(gè)客戶端607和一個(gè)服務(wù)器603，但是將領(lǐng)會(huì)，可以按需在系統(tǒng)中包括任何數(shù)目的客戶端607和服務(wù)器603。每個(gè)客戶端607和服務(wù)器603可以利用任何適合的計(jì)算架構(gòu)來(lái)實(shí)現(xiàn)，如通常進(jìn)行的那樣，并且被編程或以其他方式配置成執(zhí)行從分布式聲學(xué)監(jiān)視系統(tǒng)的場(chǎng)景收集。（多個(gè)）服務(wù)器603可以是例如基于云的感測(cè)系統(tǒng)的部分，諸如具有部署在各種位置和/或圍繞生產(chǎn)設(shè)施的其他位置中的聲學(xué)相機(jī)設(shè)備的工業(yè)狀況監(jiān)視系統(tǒng)，使得用戶（例如，技術(shù)人員、管理者和其他人員）可以訪問(wèn)系統(tǒng)以確定目標(biāo)場(chǎng)景（例如一個(gè)或多個(gè)機(jī)器）是否正在以正?；蚍駝t如預(yù)期的方式操作。客戶端計(jì)算系統(tǒng)607的用戶接口（ui）可以呈現(xiàn)圖像，例如與在圖5a、圖5b和圖5c中示出的圖像類似，但是可以使用任何數(shù)目的適合的ui方案。例如，可以呈現(xiàn)與檢測(cè)到的事件相關(guān)的附加補(bǔ)充數(shù)據(jù)，其包括例如機(jī)器原理圖、指南、維護(hù)過(guò)程、機(jī)器的內(nèi)部工作的剖面圖或可以有助于檢測(cè)后動(dòng)作的任何其他數(shù)據(jù)。如將進(jìn)一步領(lǐng)會(huì)的，類似的ui方案還可以被關(guān)于應(yīng)用服務(wù)器603使用并且用來(lái)提供對(duì)記憶裝置605的訪問(wèn)，用于向該記憶裝置寫入數(shù)據(jù)和從該記憶裝置讀取數(shù)據(jù)二者。

可以例如在所謂的物聯(lián)網(wǎng)（iot）配置的背景下實(shí)現(xiàn)這樣的實(shí)施例以提供一個(gè)或多個(gè)聲學(xué)監(jiān)視系統(tǒng)100和數(shù)據(jù)采集設(shè)備102。進(jìn)一步注意，在這樣的iot系統(tǒng)中，這樣的設(shè)備可以被包括在特定位置處部署的固定位置節(jié)點(diǎn)（例如，監(jiān)控相機(jī)、cctv相機(jī)）中。為此，聲學(xué)監(jiān)視系統(tǒng)100和數(shù)據(jù)采集設(shè)備102不需要是移動(dòng)的。進(jìn)一步注意，聲學(xué)監(jiān)視系統(tǒng)100和采集設(shè)備和任何其他計(jì)算系統(tǒng)一樣在給定網(wǎng)絡(luò)上諸如通過(guò)給定的ip地址、mac地址和/或可以通過(guò)其訪問(wèn)給定網(wǎng)絡(luò)上的元素的任何其他適合的尋址機(jī)制可尋址。采用分布式感測(cè)系統(tǒng)的許多變化和實(shí)施例將根據(jù)本公開(kāi)而是顯然的。

示例系統(tǒng)

圖7圖示了依照各種示例實(shí)施例的使用在本文中公開(kāi)的技術(shù)利用聲學(xué)監(jiān)控系統(tǒng)實(shí)現(xiàn)的計(jì)算系統(tǒng)700。在一些實(shí)施例中，系統(tǒng)700可以是用于經(jīng)由（未示出的）相機(jī)來(lái)捕捉和/或顯示靜止或移動(dòng)的圖像的系統(tǒng)，但是系統(tǒng)700不被限于該背景。例如，系統(tǒng)700可被合并到個(gè)人計(jì)算機(jī)（pc）、膝上型計(jì)算機(jī)、可穿戴計(jì)算設(shè)備、超級(jí)膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上計(jì)算機(jī)、個(gè)人數(shù)字助理（pda）、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備（例如智能電話、智能平板計(jì)算機(jī)或智能電視）、移動(dòng)互聯(lián)網(wǎng)設(shè)備（mid）、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備、機(jī)頂盒、游戲控制臺(tái)或能夠執(zhí)行圖形再現(xiàn)操作并顯示內(nèi)容的其他這樣的計(jì)算環(huán)境中。

在一些實(shí)施例中，系統(tǒng)700包括耦合至顯示器720的平臺(tái)702。平臺(tái)702可從諸如（多個(gè)）內(nèi)容服務(wù)設(shè)備730或（多個(gè)）內(nèi)容遞送設(shè)備740之類的內(nèi)容設(shè)備或者其他類似的內(nèi)容源接收內(nèi)容。包括一個(gè)或多個(gè)導(dǎo)航特征的導(dǎo)航控制器750可被用來(lái)與例如平臺(tái)702和/或顯示器720交互，以便補(bǔ)充由用戶進(jìn)行的導(dǎo)航手勢(shì)。在下面更詳細(xì)地描述這些示例部件中的每個(gè)。

在一些實(shí)施例中，平臺(tái)702可包括芯片組705、處理器710、存儲(chǔ)器712、記憶裝置714、圖形子系統(tǒng)715、相機(jī)719、運(yùn)動(dòng)傳感器721、應(yīng)用716和/或無(wú)線電設(shè)備（radio）718的任何組合。芯片組705可提供處理器710、存儲(chǔ)器712、記憶裝置714、圖形子系統(tǒng)715、應(yīng)用716和/或無(wú)線電設(shè)備718之間的互相通信。例如，芯片組705可包括能夠提供與記憶裝置714的互相通信的記憶裝置適配器（未被描繪）。

處理器710可被實(shí)現(xiàn)例如為復(fù)雜指令集計(jì)算機(jī)（cisc）或精簡(jiǎn)指令集計(jì)算機(jī)（risc）處理器、x86指令集兼容處理器、多核或任何其他微處理器或中央處理單元（cpu）。在一些實(shí)施例中，處理器710可以包括（多個(gè)）雙核處理器、（多個(gè)）雙核移動(dòng)處理器等。存儲(chǔ)器712可以被實(shí)現(xiàn)例如為易失性存儲(chǔ)器設(shè)備，諸如但不限于隨機(jī)存取存儲(chǔ)器（ram）、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（dram）或靜態(tài)ram（sram）。記憶裝置714可被實(shí)現(xiàn)例如為非易失性存儲(chǔ)設(shè)備，諸如但不限于磁盤驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、內(nèi)部存儲(chǔ)設(shè)備、附接存儲(chǔ)設(shè)備、閃存、電池備份sdram（同步dram）和/或網(wǎng)絡(luò)可訪問(wèn)存儲(chǔ)設(shè)備。在一些實(shí)施例中，當(dāng)例如多個(gè)硬件驅(qū)動(dòng)器被包括時(shí)，記憶裝置714可包括用來(lái)增加對(duì)有價(jià)值的數(shù)字媒體的存儲(chǔ)性能增強(qiáng)保護(hù)的技術(shù)。

圖形子系統(tǒng)715可執(zhí)行諸如用于顯示的靜止攝影或視頻之類的圖像的處理，并且在一些實(shí)施例中被配置成合成面部圖像，如在本文中不同地描述的那樣。圖形子系統(tǒng)715可以是例如圖形處理單元（gpu）或視覺(jué)處理單元（vpu）。模擬或數(shù)字接口可被用來(lái)通信地耦合圖形子系統(tǒng)715和顯示器720。例如，該接口可以是高清晰度多媒體接口、顯示端口、無(wú)線hdmi和/或無(wú)線hd兼容技術(shù)中的任一個(gè)。圖形子系統(tǒng)715可被整合在處理器710或芯片組705中。圖形子系統(tǒng)715可以是通信地耦合至芯片組705的獨(dú)立卡?？稍诟鞣N硬件架構(gòu)中實(shí)現(xiàn)圖形和/或視頻處理技術(shù)，其包括在本文中描述的用于標(biāo)識(shí)和產(chǎn)生優(yōu)選的面部朝向的技術(shù)。例如，圖形和/或視頻功能可被整合在芯片組內(nèi)。替代地，可使用分立的圖形和/或視頻處理器。作為又一實(shí)施例，可通過(guò)通用處理器（包括多核處理器）來(lái)實(shí)現(xiàn)圖形和/或視頻功能。在另一實(shí)施例中，可在消費(fèi)類電子設(shè)備中實(shí)現(xiàn)所述功能。

無(wú)線電設(shè)備718可包括能夠使用各種適合的無(wú)線通信技術(shù)來(lái)傳輸和接收信號(hào)的一個(gè)或多個(gè)無(wú)線電設(shè)備。這樣的技術(shù)可涉及跨一個(gè)或多個(gè)無(wú)線網(wǎng)絡(luò)的通信。示例性無(wú)線網(wǎng)絡(luò)包括（但不限于）無(wú)線局域網(wǎng)（wlan）、無(wú)線個(gè)域網(wǎng)（wpan）、無(wú)線城域網(wǎng)（wman）、蜂窩網(wǎng)以及衛(wèi)星網(wǎng)。在跨這樣的網(wǎng)絡(luò)進(jìn)行通信時(shí)，無(wú)線電設(shè)備718可依據(jù)任何版本的一個(gè)或多個(gè)可適用標(biāo)準(zhǔn)來(lái)操作。

在一些實(shí)施例中，（多個(gè)）內(nèi)容服務(wù)設(shè)備730可通過(guò)任何國(guó)家的、國(guó)際的和/或獨(dú)立的服務(wù)來(lái)托管并且因此經(jīng)由例如因特網(wǎng)或其他網(wǎng)絡(luò)對(duì)平臺(tái)702而言是可訪問(wèn)的。（多個(gè)）內(nèi)容服務(wù)設(shè)備730可被耦合至平臺(tái)702和/或顯示器720。平臺(tái)702和/或（多個(gè)）內(nèi)容服務(wù)設(shè)備730可被耦合至網(wǎng)絡(luò)760以向和從網(wǎng)絡(luò)760傳送（例如，發(fā)送和/或接收）媒體信息。（多個(gè)）內(nèi)容遞送設(shè)備740也可被耦合至平臺(tái)702和/或顯示器720。在一些實(shí)施例中，（多個(gè)）內(nèi)容服務(wù)設(shè)備730可包括有線電視盒、個(gè)人計(jì)算機(jī)、網(wǎng)絡(luò)、電話、能夠遞送數(shù)字信息和/或內(nèi)容的因特網(wǎng)使能設(shè)備或器具，以及能夠經(jīng)由網(wǎng)絡(luò)760或者直接地在內(nèi)容提供者與平臺(tái)702和/或顯示器720之間單向或雙向地傳送內(nèi)容的任何其他類似設(shè)備。將領(lǐng)會(huì)到，可經(jīng)由網(wǎng)絡(luò)760單向和/或雙向地向和從系統(tǒng)700中的部件和內(nèi)容提供者中的任一個(gè)傳送內(nèi)容。內(nèi)容的示例可包括任何媒體信息，包括例如視頻、音樂(lè)、圖形、文本、醫(yī)療和游戲內(nèi)容等。

（多個(gè)）內(nèi)容服務(wù)設(shè)備730接收內(nèi)容，諸如包括媒體信息、數(shù)字信息和/或其他內(nèi)容的有線電視節(jié)目。內(nèi)容提供者的示例可包括任何有線或衛(wèi)星電視或者無(wú)線電或因特網(wǎng)內(nèi)容提供者。所提供的示例不意味著限制本公開(kāi)。在一些實(shí)施例中，平臺(tái)702可從具有一個(gè)或多個(gè)導(dǎo)航特征的導(dǎo)航控制器750接收控制信號(hào)。例如，控制器750的導(dǎo)航特征可被用來(lái)與用戶接口722交互。在一些實(shí)施例中，導(dǎo)航控制器750可以是定點(diǎn)設(shè)備，其可以是允許用戶將空間（例如連續(xù)且多維）數(shù)據(jù)輸入到計(jì)算機(jī)中的計(jì)算機(jī)硬件部件（具體地，人性化接口設(shè)備）。諸如圖形用戶接口（gui）和電視及監(jiān)視器之類的許多系統(tǒng)允許用戶使用物理手勢(shì)、面部表情或聲音等來(lái)控制數(shù)據(jù)和向計(jì)算機(jī)或電視提供數(shù)據(jù)。

控制器750的導(dǎo)航特征的移動(dòng)可通過(guò)指針、光標(biāo)、聚焦環(huán)或顯示在顯示器上的其他視覺(jué)指示器的移動(dòng)被重復(fù)在顯示器（例如顯示器720）上。例如，在軟件應(yīng)用716的控制下，位于導(dǎo)航控制器750上的導(dǎo)航特征可被例如映射成顯示在用戶接口722上的視覺(jué)導(dǎo)航特征。在一些實(shí)施例中，控制器750可能不是分離的部件，而是可被整合到平臺(tái)702和/或顯示器720中。然而，如將領(lǐng)會(huì)的，實(shí)施例不限于本文中所示或所描述的元件或背景下。

在一些實(shí)施例中，（未示出的）驅(qū)動(dòng)器可包括使得用戶能夠例如在初始啟動(dòng)之后、在被使能時(shí)利用按鈕的觸摸來(lái)立即打開(kāi)和關(guān)閉平臺(tái)702（比如電視）的技術(shù)。程序邏輯可允許平臺(tái)702在平臺(tái)被“關(guān)閉”時(shí)將內(nèi)容流式傳輸至媒體適配器或其他（多個(gè)）內(nèi)容服務(wù)設(shè)備730或（多個(gè)）內(nèi)容遞送設(shè)備740。此外，芯片組705可包括支持例如5.1環(huán)繞聲音音頻和/或高清晰度7.1環(huán)繞聲音音頻的硬件和/或軟件。驅(qū)動(dòng)器可包括用于集成圖形平臺(tái)的圖形驅(qū)動(dòng)器。在一些實(shí)施例中，圖形驅(qū)動(dòng)器可包括外圍部件互連（pci）express圖形卡。

在各種實(shí)施例中，系統(tǒng)700中示出的部件中的任何一個(gè)或多個(gè)可被整合。例如，平臺(tái)702和（多個(gè)）內(nèi)容服務(wù)設(shè)備730可被整合，或者平臺(tái)702和（多個(gè)）內(nèi)容遞送設(shè)備740可被整合，或者例如平臺(tái)702、（多個(gè)）內(nèi)容服務(wù)設(shè)備730和（多個(gè)）內(nèi)容遞送設(shè)備740可被整合。在各種實(shí)施例中，平臺(tái)702和顯示器720可以是集成單元。例如，顯示器720和（多個(gè)）內(nèi)容服務(wù)設(shè)備730可被整合，或者顯示器720和（多個(gè)）內(nèi)容遞送設(shè)備740可被整合。這些示例不意味著限制本公開(kāi)。

在各種實(shí)施例中，系統(tǒng)700可以被實(shí)現(xiàn)為無(wú)線系統(tǒng)、有線系統(tǒng)或二者的組合。當(dāng)被實(shí)現(xiàn)為無(wú)線系統(tǒng)時(shí)，系統(tǒng)700可包括適于通過(guò)無(wú)線共享介質(zhì)進(jìn)行通信的部件和接口，諸如一個(gè)或多個(gè)天線、發(fā)射器、接收器、收發(fā)器、放大器、濾波器、控制邏輯等。無(wú)線共享介質(zhì)的示例可包括無(wú)線頻譜的部分，諸如rf頻譜等。當(dāng)被實(shí)現(xiàn)為有線系統(tǒng)時(shí)，系統(tǒng)700可包括適于通過(guò)有線通信介質(zhì)進(jìn)行通信的部件和接口，諸如輸入/輸出（i/o）適配器、連接i/o適配器與對(duì)應(yīng)的有線通信介質(zhì)的物理連接器、網(wǎng)絡(luò)接口卡（nic）、盤控制器、視頻控制器、音頻控制器等。有線通信介質(zhì)的示例可包括電線、電纜、金屬引線、印刷電路板（pcb）、背板、開(kāi)關(guān)結(jié)構(gòu)、半導(dǎo)體材料、雙絞線、同軸電纜、光纖等。

平臺(tái)702可建立一個(gè)或多個(gè)邏輯或物理通道來(lái)傳送信息。信息可包括媒體信息和控制信息。媒體信息可指代表示打算用于用戶的內(nèi)容的任何數(shù)據(jù)。內(nèi)容的示例可包括例如來(lái)自語(yǔ)音會(huì)話、視頻會(huì)議、流式傳輸?shù)囊曨l、電子郵件或文本消息、語(yǔ)音郵件消息、字母數(shù)字符號(hào)、圖形、圖像（例如，自拍照等）、視頻、文本等的數(shù)據(jù)。控制信息可指代表示打算用于自動(dòng)化系統(tǒng)的命令、指令或控制字的任何數(shù)據(jù)。例如，控制信息可被用來(lái)通過(guò)系統(tǒng)來(lái)路由媒體信息或者指示節(jié)點(diǎn)（例如，使用幫助如在本文中描述的特權(quán)訪問(wèn)違反檢查的硬件）以預(yù)先確定的方式處理媒體信息。然而，實(shí)施例不限于圖7中所示或所描述的元件或背景。

如上面所描述的，系統(tǒng)700可以以變化的物理樣式或形狀因子來(lái)體現(xiàn)。圖8圖示了可在其中體現(xiàn)系統(tǒng)700的小形狀因子設(shè)備800的實(shí)施例。在一些實(shí)施例中，例如，設(shè)備800可被實(shí)現(xiàn)為具有無(wú)線能力的移動(dòng)計(jì)算設(shè)備。例如，移動(dòng)計(jì)算設(shè)備可指代具有處理系統(tǒng)和移動(dòng)電源或電力供應(yīng)（諸如一個(gè)或多個(gè)電池）的任何設(shè)備。

如先前所描述的，移動(dòng)計(jì)算設(shè)備的示例可包括個(gè)人計(jì)算機(jī)（pc）、膝上型計(jì)算機(jī)、超級(jí)膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上計(jì)算機(jī)、個(gè)人數(shù)字助理（pda）、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備（例如智能電話、智能平板計(jì)算機(jī)或智能電視）、移動(dòng)互聯(lián)網(wǎng)設(shè)備（mid）、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備等。

移動(dòng)計(jì)算設(shè)備的示例還可包括被布置成由人穿戴的計(jì)算機(jī)，諸如手腕計(jì)算機(jī)、手指計(jì)算機(jī)、戒指計(jì)算機(jī)、眼鏡計(jì)算機(jī)、腰帶夾計(jì)算機(jī)、臂帶計(jì)算機(jī)、鞋計(jì)算機(jī)、衣服計(jì)算機(jī)以及其他可穿戴計(jì)算機(jī)。在一些實(shí)施例中，例如，移動(dòng)計(jì)算設(shè)備可被實(shí)現(xiàn)為能夠執(zhí)行計(jì)算機(jī)應(yīng)用以及語(yǔ)音通信和/或數(shù)據(jù)通信的智能電話。盡管可能利用被實(shí)現(xiàn)為智能電話的移動(dòng)計(jì)算設(shè)備作為示例描述了一些實(shí)施例，但是可領(lǐng)會(huì)，也可使用其他無(wú)線移動(dòng)計(jì)算設(shè)備來(lái)實(shí)現(xiàn)其他實(shí)施例。實(shí)施例不限于該背景下。

如圖8中所示，移動(dòng)電子設(shè)備800可包括外殼802、顯示器804、輸入/輸出（i/o）設(shè)備806和天線808。設(shè)備800還可包括導(dǎo)航特征812。顯示器804可包括用于顯示適于移動(dòng)計(jì)算設(shè)備的信息的任何適合的顯示單元，其在一個(gè)示例實(shí)施例中是觸摸屏顯示器。i/o設(shè)備806可包括用于將信息輸入到移動(dòng)計(jì)算設(shè)備中的任何適合的i/o設(shè)備。i/o設(shè)備806的示例可包括字母數(shù)字鍵盤、數(shù)字小鍵盤、觸摸板、輸入鍵、按鈕、相機(jī)、開(kāi)關(guān)、翹板開(kāi)關(guān)、麥克風(fēng)、揚(yáng)聲器、語(yǔ)音識(shí)別設(shè)備和軟件等。還可經(jīng)由麥克風(fēng)將信息輸入到設(shè)備800中。這樣的信息可通過(guò)語(yǔ)音識(shí)別設(shè)備來(lái)數(shù)字化。實(shí)施例不限于該背景下。

可使用硬件元件、軟件元件或二者的組合來(lái)實(shí)現(xiàn)各種實(shí)施例。硬件元件的示例可包括處理器、微處理器、電路、電路元件（例如晶體管、電阻器、電容器、電感器等）、集成電路、專用集成電路（asic）、可編程邏輯器件（pld）、數(shù)字信號(hào)處理器（dsp）、現(xiàn)場(chǎng)可編程門陣列（fpga）、邏輯門、寄存器、片上系統(tǒng)、半導(dǎo)體器件、芯片、微芯片、芯片組等。軟件的示例可包括軟件部件、程序、應(yīng)用、計(jì)算機(jī)程序、應(yīng)用程序、系統(tǒng)程序、機(jī)器程序、操作系統(tǒng)軟件、中間件、固件、軟件模塊、例程、子例程、函數(shù)、方法、過(guò)程、軟件接口、應(yīng)用程序接口（api）、指令集、計(jì)算代碼、計(jì)算機(jī)代碼、代碼段、計(jì)算機(jī)代碼段、字、數(shù)值、符號(hào)或其任何組合。是否使用硬件元件和/或軟件元件可以依照任何數(shù)目的因素從一個(gè)實(shí)施例變化到下一個(gè)實(shí)施例，所述因素諸如期望的計(jì)算速率、功率級(jí)、熱耐受性、處理周期預(yù)算、輸入數(shù)據(jù)速率、輸出數(shù)據(jù)速率、存儲(chǔ)器資源、數(shù)據(jù)總線速度以及其他設(shè)計(jì)或性能約束。

一些實(shí)施例可以例如使用可以存儲(chǔ)指令或指令集的機(jī)器可讀介質(zhì)或物品來(lái)實(shí)現(xiàn)，所述指令或指令集在被機(jī)器執(zhí)行時(shí)可以使得機(jī)器執(zhí)行依照本公開(kāi)的實(shí)施例的方法和/或操作。這樣的機(jī)器可以包括例如任何適合的處理平臺(tái)、計(jì)算平臺(tái)、計(jì)算設(shè)備、處理設(shè)備、計(jì)算系統(tǒng)、處理系統(tǒng)、計(jì)算機(jī)、處理器等，并且可以使用硬件和軟件的任何適合的組合來(lái)實(shí)現(xiàn)。機(jī)器可讀介質(zhì)或物品可以包括例如任何適合的類型的存儲(chǔ)器單元、存儲(chǔ)器設(shè)備、存儲(chǔ)器物品、存儲(chǔ)器介質(zhì)、存儲(chǔ)設(shè)備、存儲(chǔ)物品、存儲(chǔ)介質(zhì)和/或存儲(chǔ)單元，例如存儲(chǔ)器、可移除或不可移除介質(zhì)、可擦除或不可擦除介質(zhì)、可寫或可重寫介質(zhì)、數(shù)字或模擬介質(zhì)、影片、軟盤、壓縮盤只讀存儲(chǔ)器（cd-rom）、可記錄壓縮盤（cd-r）、可重寫壓縮盤（cd-rw）、光盤、磁性介質(zhì)、磁光介質(zhì)、可移除存儲(chǔ)器卡或盤，各種類型的數(shù)字通用盤（dvd）、磁帶、盒式磁帶等。指令可以包括使用任何適合的高級(jí)的、低級(jí)的、面向?qū)ο蟮摹⒁曈X(jué)的、編譯的和/或解釋的編程語(yǔ)言實(shí)現(xiàn)的任何適合類型的可執(zhí)行代碼。

其他示例實(shí)施例

以下示例關(guān)于其他實(shí)施例，根據(jù)其許多置換和配置將是顯然的。

示例1是一種聲學(xué)監(jiān)視系統(tǒng)，其包括麥克風(fēng)設(shè)備陣列；聲學(xué)圖像控制器，其被通信地耦合到麥克風(fēng)設(shè)備陣列并且被配置成基于從麥克風(fēng)設(shè)備陣列接收的多個(gè)音頻信號(hào)而輸出聲學(xué)圖像數(shù)據(jù)；以及計(jì)算機(jī)音頻視覺(jué)（cav）控制器，其通信地耦合到聲學(xué)圖像控制器并且包括事件識(shí)別模式，所述事件識(shí)別模式被配置成至少分析聲學(xué)圖像數(shù)據(jù)的部分以檢測(cè)所觀察的場(chǎng)景內(nèi)的一個(gè)或多個(gè)聲音事件，并且確定引起所述一個(gè)或多個(gè)聲音事件的至少一個(gè)狀況。

示例2包括示例1的主題，其中cav控制器被進(jìn)一步配置成響應(yīng)于檢測(cè)到一個(gè)或多個(gè)聲音事件而生成針對(duì)用于每個(gè)相應(yīng)的聲音事件的多維事件簽名，并且其中每個(gè)多維事件簽名至少包括聲學(xué)圖像數(shù)據(jù)的部分和基于所述多個(gè)音頻信號(hào)的一組經(jīng)空間濾波的聲音信號(hào)。

示例3包括示例2的主題，其中cav控制器被進(jìn)一步配置成將所述一個(gè)或多個(gè)聲音事件的位置與通過(guò)視覺(jué)圖像傳感器捕捉的圖像幀的對(duì)應(yīng)部分相關(guān)。

示例4包括示例3的主題，其中cav控制器被進(jìn)一步配置成從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的一個(gè)或多個(gè)聲學(xué)圖像幀的相關(guān)區(qū)域提取第一組視覺(jué)特征；從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的一個(gè)或多個(gè)圖像幀的相關(guān)區(qū)域提取第二組視覺(jué)特征；以及從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的經(jīng)空間濾波的聲音信號(hào)提取音頻特征。

示例5包括示例4的主題，其中cav控制器被進(jìn)一步配置成：針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件，相對(duì)于一個(gè)或多個(gè)預(yù)定義的事件種類模型對(duì)多維事件簽名進(jìn)行評(píng)分，以及基于一個(gè)或多個(gè)經(jīng)評(píng)分的事件種類模型對(duì)引起一個(gè)或多個(gè)事件中的至少一個(gè)聲音事件的狀況進(jìn)行分類。

示例6包括示例1-5的主題，其中麥克風(fēng)設(shè)備陣列中的每個(gè)麥克風(fēng)設(shè)備包括全向頻率響應(yīng)。

示例7包括示例1-5的主題，其中麥克風(fēng)設(shè)備陣列中的每個(gè)麥克風(fēng)設(shè)備包括單向、雙向、獵槍、接觸和拋物線麥克風(fēng)類型中的至少一個(gè)。

示例8包括示例1-7的主題，其中麥克風(fēng)設(shè)備陣列中的每個(gè)麥克風(fēng)設(shè)備包括相同的頻率響應(yīng)和靈敏度。

示例9包括示例1-8的主題，其中麥克風(fēng)設(shè)備陣列的第一子集包括具有第一頻率響應(yīng)的麥克風(fēng)設(shè)備，并且第二子集包括具有第二頻率響應(yīng)的麥克風(fēng)設(shè)備。

示例10包括示例9的主題，其中第一子集和第二子集中的至少一個(gè)包括作為目標(biāo)的頻率響應(yīng)。

示例11包括示例1-10的主題，其中麥克風(fēng)設(shè)備陣列包括2-d陣列，2-d陣列包括mxn麥克風(fēng)模式。

示例12包括示例1-11的主題，其中麥克風(fēng)設(shè)備陣列包括寬邊陣列。

示例13包括示例1-12的主題，進(jìn)一步包括視覺(jué)圖像傳感器。

示例14包括示例13的主題，其中視覺(jué)圖像傳感器被定位在麥克風(fēng)設(shè)備陣列的中心。

示例15包括示例13-14的主題，其中視覺(jué)圖像傳感器被配置成產(chǎn)生rgb圖像流。

示例16包括示例13-15的主題，其中視覺(jué)圖像傳感器包括紅外圖像傳感器。

示例17包括示例13-16的主題，其中視覺(jué)圖像傳感器和麥克風(fēng)設(shè)備陣列每個(gè)都具有捕捉域并且被配置成使得捕捉域彼此空間對(duì)準(zhǔn)。

示例18包括示例13-17的主題，其中基于公共時(shí)鐘方案將通過(guò)視覺(jué)圖像傳感器輸出的圖像數(shù)據(jù)和通過(guò)麥克風(fēng)陣列輸出的多個(gè)音頻信號(hào)時(shí)間對(duì)準(zhǔn)。

示例19包括示例1-18的主題，進(jìn)一步包括處理器，其被配置成響應(yīng)于cav控制器在所觀察的場(chǎng)景中檢測(cè)到至少一個(gè)聲音事件并且確定引起所述至少一個(gè)聲音事件的狀況而發(fā)出警報(bào)。

示例20包括示例19的主題，進(jìn)一步包括如下中的至少一個(gè)：用以視覺(jué)上呈現(xiàn)警報(bào)的顯示器、用以呈現(xiàn)警報(bào)的觸覺(jué)元件以及用以聽(tīng)覺(jué)上呈現(xiàn)警報(bào)的揚(yáng)聲器。

示例21包括示例20的主題，其中顯示器是觸摸屏顯示器。

示例22包括示例1-21的主題，進(jìn)一步包括用戶接口，其被配置成響應(yīng)于在所觀察的場(chǎng)景內(nèi)檢測(cè)到的至少一個(gè)聲音事件而呈現(xiàn)聲音事件信息。

示例23包括示例22的主題，其中用戶接口提供增強(qiáng)現(xiàn)實(shí)呈現(xiàn)，使得聲音事件信息疊加在所觀察的場(chǎng)景的一個(gè)或多個(gè)視覺(jué)圖像上。

示例24包括示例23的主題，其中增強(qiáng)現(xiàn)實(shí)呈現(xiàn)進(jìn)一步包括疊加到所觀察的場(chǎng)景的一個(gè)或多個(gè)圖像上的半透明的聲學(xué)熱圖。

示例25包括示例22-24的主題，其中聲音事件信息包括對(duì)象標(biāo)識(shí)符、用戶定義的標(biāo)簽和地理位置標(biāo)識(shí)符中的至少一個(gè)。

示例26是一種片上系統(tǒng)（soc），其包括如在前述示例中的任一個(gè)中限定的系統(tǒng)。

示例27是一種移動(dòng)計(jì)算設(shè)備，其包括前述示例中的任一個(gè)的系統(tǒng)。

示例28包括示例27的主題，其中移動(dòng)計(jì)算設(shè)備是可穿戴設(shè)備、智能電話、平板計(jì)算機(jī)或膝上型計(jì)算機(jī)中的一個(gè)。

示例29是至少一種編碼有指令的非瞬態(tài)計(jì)算機(jī)程序產(chǎn)品，所述指令在被一個(gè)或多個(gè)處理器執(zhí)行時(shí)使得過(guò)程被執(zhí)行，過(guò)程包括：從聲學(xué)成像控制器接收多個(gè)聲學(xué)圖像幀和多個(gè)經(jīng)空間濾波的聲音信號(hào)，所述多個(gè)聲學(xué)圖像幀和所述多個(gè)經(jīng)空間濾波的聲音信號(hào)表示所觀察的場(chǎng)景的空間譜；確定一個(gè)或多個(gè)聲音事件在所述多個(gè)聲學(xué)圖像幀內(nèi)的位置；以及響應(yīng)于確定一個(gè)或多個(gè)聲音事件的位置而生成針對(duì)每個(gè)相應(yīng)的聲音事件的多維事件簽名，其中每個(gè)多維事件簽名至少包括聲學(xué)圖像幀的部分和來(lái)自所述多個(gè)經(jīng)空間濾波的聲音信號(hào)的一組經(jīng)空間濾波的聲音信號(hào)。

示例30包括示例29的主題，過(guò)程進(jìn)一步包括接收表示所觀察的場(chǎng)景的多個(gè)圖像幀。

示例31包括示例30的主題，其中所述多個(gè)聲學(xué)圖像幀、所述多個(gè)經(jīng)空間濾波的聲音信號(hào)以及所述多個(gè)圖像幀被空間和時(shí)間對(duì)準(zhǔn)。

示例32包括示例29-31的主題，其中確定一個(gè)或多個(gè)聲音事件的位置的動(dòng)作進(jìn)一步包括對(duì)增量圖像利用峰值檢出算法，增量圖像從所述多個(gè)聲學(xué)圖像幀生成，其中僅在增量圖像內(nèi)的具有超過(guò)預(yù)定義的閾值的像素強(qiáng)度的那些像素被登記為聲音事件。

示例33包括示例32的主題，其中所述一個(gè)或多個(gè)聲音事件中的每個(gè)聲音事件的位置與聲學(xué)圖像數(shù)據(jù)的超過(guò)預(yù)定義的閾值的那些像素的幾何區(qū)域相關(guān)。

示例34包括示例30-33的主題，過(guò)程進(jìn)一步包括將所述一個(gè)或多個(gè)聲音事件的位置與圖像幀的對(duì)應(yīng)部分相關(guān)。

示例35包括示例29-34的主題，進(jìn)一步包括將針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的該組經(jīng)空間濾波的聲音信號(hào)加和。

示例36包括示例35的主題，過(guò)程進(jìn)一步包括從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的一個(gè)或多個(gè)聲學(xué)圖像幀的相關(guān)區(qū)域提取第一組視覺(jué)特征，從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的一個(gè)或多個(gè)圖像幀的相關(guān)區(qū)域提取第二組視覺(jué)特征，以及從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的被加和的經(jīng)空間濾波的聲音信號(hào)提取音頻特征。

示例37包括示例36的主題，其中提取第一組視覺(jué)特征和第二組視覺(jué)特征進(jìn)一步包括利用尺度不變特征變換（sift）。

示例38包括示例36-37的主題，其中從針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的被加和的經(jīng)空間濾波的信號(hào)提取音頻特征進(jìn)一步包括利用梅爾頻率倒譜系數(shù)（mfcc）。

示例39包括示例36-38的主題，其中針對(duì)每個(gè)相應(yīng)的聲音事件生成的多維事件簽名至少包括第一組提取的視覺(jué)特征的部分、第二組提取的視覺(jué)特征的部分和提取的音頻特征的部分。

示例40包括示例29-39的主題，過(guò)程進(jìn)一步包括針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件相對(duì)于一個(gè)或多個(gè)預(yù)定義的事件種類模型對(duì)多維事件簽名進(jìn)行評(píng)分，以及基于一個(gè)或多個(gè)經(jīng)評(píng)分的事件種類模型對(duì)引起所述一個(gè)或多個(gè)聲音事件中的至少一個(gè)聲音事件的狀況進(jìn)行分類。

示例41包括示例40的主題，其中所述一個(gè)或多個(gè)預(yù)定義的事件種類模型每個(gè)包括高斯混合模型（gmm）。

示例42包括示例40-41的主題，其中所述一個(gè)或多個(gè)預(yù)定義的事件種類模型被先驗(yàn)地確定。

示例43包括示例40-42的主題，其中通過(guò)訓(xùn)練例程來(lái)生成所述一個(gè)或多個(gè)預(yù)定義的事件種類模型。

示例44包括示例40-43的主題，過(guò)程進(jìn)一步包括基于針對(duì)所述一個(gè)或多個(gè)聲音事件的每個(gè)分類的狀況向用戶呈現(xiàn)一個(gè)或多個(gè)警報(bào)。

示例45包括示例44的主題，其中經(jīng)由顯示屏幕視覺(jué)上呈現(xiàn)所述一個(gè)或多個(gè)警報(bào)。

示例46包括示例44-45的主題，其中經(jīng)由揚(yáng)聲器聽(tīng)覺(jué)上呈現(xiàn)所述一個(gè)或多個(gè)警報(bào)。

示例47包括示例44-46的主題，其中過(guò)程進(jìn)一步包括將所述一個(gè)或多個(gè)警報(bào)和針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)聲音事件的補(bǔ)充數(shù)據(jù)記錄在數(shù)據(jù)庫(kù)中。

示例48包括示例47的主題，其中補(bǔ)充數(shù)據(jù)包括如下中的至少一個(gè)：檢測(cè)的日期、檢測(cè)的時(shí)間、檢測(cè)的地理位置、對(duì)經(jīng)分類的狀況的描述，以及發(fā)出所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的對(duì)象標(biāo)識(shí)符或標(biāo)簽。

示例49是一種用于狀況監(jiān)視的計(jì)算機(jī)實(shí)現(xiàn)方法，方法包括：通過(guò)處理器接收多個(gè)聲學(xué)圖像幀和多個(gè)經(jīng)空間濾波的聲音信號(hào)，所述多個(gè)聲學(xué)圖像幀和所述多個(gè)經(jīng)空間濾波的聲音信號(hào)表示所觀察的場(chǎng)景的空間譜；確定一個(gè)或多個(gè)聲音事件在所述多個(gè)聲學(xué)圖像幀內(nèi)的位置；以及響應(yīng)于確定一個(gè)或多個(gè)聲音事件的位置而生成針對(duì)每個(gè)相應(yīng)的聲音事件的多維事件簽名，其中每個(gè)多維事件簽名至少包括聲學(xué)圖像幀的部分和來(lái)自所述多個(gè)經(jīng)空間濾波的聲音信號(hào)的一組經(jīng)空間濾波的聲音信號(hào)。

示例50包括示例49的主題，進(jìn)一步包括針對(duì)所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件相對(duì)于一個(gè)或多個(gè)預(yù)定義的事件種類模型對(duì)多維事件簽名進(jìn)行評(píng)分，基于一個(gè)或多個(gè)經(jīng)評(píng)分的預(yù)定義的事件種類模型對(duì)引起所述一個(gè)或多個(gè)聲音事件中的至少一個(gè)聲音事件的狀況進(jìn)行分類，以及響應(yīng)于對(duì)引起所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的狀況進(jìn)行分類而顯示視覺(jué)上表示聲音事件信息的用戶接口。

示例51包括示例50的主題，其中顯示描繪聲音事件信息的用戶接口進(jìn)一步包括在增強(qiáng)現(xiàn)實(shí)模式中顯示圖像數(shù)據(jù)的一個(gè)或多個(gè)幀，其中聲音事件信息在發(fā)出所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的位置處疊加在圖像數(shù)據(jù)的所述一個(gè)或多個(gè)幀上。

示例52包括示例51的主題，其中增強(qiáng)現(xiàn)實(shí)模式進(jìn)一步包括顯示半透明的聲學(xué)熱圖，其表示所述一個(gè)或多個(gè)聲音事件中的每個(gè)相應(yīng)的聲音事件的響度強(qiáng)度和位置。

示例53包括示例49-52的主題，其中接收所述多個(gè)聲學(xué)圖像幀和所述多個(gè)經(jīng)空間濾波的聲音信號(hào)進(jìn)一步包括從遠(yuǎn)程存儲(chǔ)服務(wù)器至少接收所述多個(gè)聲學(xué)圖像幀和所述多個(gè)經(jīng)空間濾波的聲音信號(hào)的部分。

示例54包括示例49-53的主題，方法進(jìn)一步包括接收至少一個(gè)新的或更新的預(yù)定義的事件種類模型。

出于說(shuō)明和描述的目的呈現(xiàn)了示例實(shí)施例的前述描述。其不意圖是詳盡的或?qū)⒈竟_(kāi)限于所公開(kāi)的精確形式。根據(jù)本公開(kāi)的許多修改和變化是可能的。意圖本公開(kāi)的范圍不被該詳細(xì)描述限制，而是由附著到其的權(quán)利要求書(shū)限制。要求本申請(qǐng)的優(yōu)先權(quán)的將來(lái)提交的申請(qǐng)可以以不同的方式要求保護(hù)所公開(kāi)的主題，并且一般可以包括如在本文中不同地公開(kāi)或以其他方式展示的一個(gè)或多個(gè)限制的任何集合。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：N.卡希爾;H.M.卡爾;M.Y.凱利;K.諾蘭;A.V.拉扎魯特;K.A.埃利斯;R.J.奧`馬利
技術(shù)所有人：英特爾公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻聲學(xué)相關(guān)技術(shù)

聲學(xué)照相機(jī)相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于聲學(xué)相機(jī)的音頻視覺(jué)場(chǎng)景分析的制作方法