高效的基于內(nèi)容的視頻檢索的制作方法
【專利說明】局效的基于內(nèi)容的視頻檢索
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求2013年8月29日提交的以色列專利申請?zhí)?28204,標(biāo)題為"高效的基于 內(nèi)容的視頻檢索",2014年1月22日提交的美國申請?zhí)?4/161,355的優(yōu)先權(quán),其通過引用方 式以全文合并于此。
技術(shù)領(lǐng)域
[0003] 各種公開的實(shí)施方式涉及視頻內(nèi)容分析。
【背景技術(shù)】
[0004] 隨著因特網(wǎng)的發(fā)展,視頻內(nèi)容的創(chuàng)建和分發(fā)急劇增加。對這些內(nèi)容的分析和理解 的需求也同樣增加。例如,對識別包含非法內(nèi)容、侵犯藝術(shù)家版權(quán)、犯罪等的視頻的需求日 益增加。為了執(zhí)行這些檢測,必須對視頻內(nèi)容進(jìn)行處理和分析。不幸的是,龐大的視頻數(shù)據(jù) 量和識別視頻數(shù)據(jù)的相關(guān)部分的困難往往挫敗這種嘗試。在一些情況下,存在適當(dāng)?shù)墓ぞ?可以于執(zhí)行分析,但僅在被執(zhí)行的圖像幀數(shù)較少時,分析才易于處理。如果將工具應(yīng)用到整 個視頻,這需要太長的時間才能收到結(jié)果。此外,一些工具相比其他在某些情況下更加合 適。如果不加區(qū)別地將這些工具適用于所有品質(zhì)和特性的視頻,那么這些工具可能會反饋 誤報或誤導(dǎo)一系列其他分析工具。
[0005] 因此,存在對將視頻有效地分解為易處理的單元進(jìn)行分析的系統(tǒng)和方法的需求。 特別地,存在有效地確定視頻內(nèi)容的邊界的需求,以便在之后可以更有效地應(yīng)用所適用的 工具和分析技術(shù)。需要這樣的工具,以除去從搜索中檢索的重復(fù)的視頻,挖掘視頻數(shù)據(jù)庫的 內(nèi)部結(jié)構(gòu),執(zhí)行自動視頻標(biāo)記,進(jìn)行對侵犯版權(quán)的自動檢測等。存在對克服上述問題,并提 供額外益處的系統(tǒng)的需求。總體而言,本文中一些現(xiàn)有或相關(guān)系統(tǒng)的實(shí)施方式及其相關(guān)限 定是說明性的而非排他性的。經(jīng)過閱讀以下發(fā)明詳述后,對于本領(lǐng)域技術(shù)人員而言,現(xiàn)存的 或現(xiàn)有的系統(tǒng)的其他限定將變得顯而易見。
【附圖說明】
[0006] 本公開的一個或多個實(shí)施方式通過實(shí)施例的方式示出,并且附圖中類似的標(biāo)號表 示類似的元件而非限制。
[0007] 圖1是示意框圖,描繪了可以在一些實(shí)施方式中實(shí)現(xiàn)的視頻處理操作的各個方面, 包括鏡頭轉(zhuǎn)換檢測分析;
[0008] 圖2是流程圖,描繪了用于基于可以在一些實(shí)施方式中實(shí)現(xiàn)的逐幀畫面分析,確定 視頻中鏡頭轉(zhuǎn)換的方法的各個步驟;
[0009]圖3是流程圖,描繪了鏡頭轉(zhuǎn)換檢測方法的各個步驟;
[0010]圖4是示意框圖,描繪了鏡頭轉(zhuǎn)換檢測方法的各個方面;
[0011] 圖5是時間序列曲線圖,描繪了視頻序列中的各個鏡頭轉(zhuǎn)換;
[0012] 圖6是流程圖,描繪了用于檢測可以在一些實(shí)施方式中實(shí)現(xiàn)的不同轉(zhuǎn)換類型的方 法的各個步驟;和
[0013] 圖7是可以被用于實(shí)現(xiàn)一些實(shí)施方式的特征的計算機(jī)系統(tǒng)的框圖。
[0014] 本領(lǐng)域技術(shù)人員會理解,本文所討論的每一流程圖和序列圖中所示出的邏輯可以 以各種方式來改變。例如,可以重新排列邏輯的順序,可以并行執(zhí)行子框,可以省略示出的 邏輯,可以包括其他邏輯等。以所描繪的方式提供所描繪的實(shí)施方式僅是出于解釋的目的, 并為讀者的方便起見。
[0015] 發(fā)明詳述
[0016] 以下描述和附圖是說明性的,而不應(yīng)被解釋為限制。許多具體細(xì)節(jié)被描述以提供 對本公開的全面理解。然而,在某些情況下,為了避免使說明書顯得模糊,不再對公知細(xì)節(jié) 進(jìn)行描述。本說明書中提到的"一個實(shí)施方式"或"實(shí)施方式"是指該實(shí)施方式有關(guān)的所描述 的特定的特征、結(jié)構(gòu)或特性被包括在本公開的至少一個實(shí)施方式中。出現(xiàn)在本說明書各處 的短語"在一個實(shí)施方式中"并不必然全部指代同一實(shí)施方式,也并非與單獨(dú)的或替代的實(shí) 施方式相互排斥的其他實(shí)施方式。此外,所描述的各種特征可以由一些實(shí)施方式,而非其他 實(shí)施方式展示。類似地,描述的各種要求,可以是對一些實(shí)施方式,而非對其它實(shí)施方式的 要求。
[0017] 本說明書中所用的術(shù)語在本領(lǐng)域中、在本公開內(nèi)容的語境內(nèi)、在使用每個術(shù)語的 說明書語境中,通常具有其普通的含義。被用于描述本公開的某些術(shù)語將在下文或者說明 書中的其他地方進(jìn)行討論從而為實(shí)施者提供關(guān)于本公開的說明書的額外指導(dǎo)。為方便起 見,某些術(shù)語可能被突出顯示,例如使用引號。突出顯示的使用對術(shù)語的范圍和含義沒有影 響;在同樣的情況下,無論它是否被高亮顯示,術(shù)語的范圍和含義是相同的。應(yīng)當(dāng)理解,相同 的事物能夠以一個以上的方式進(jìn)行敘述。將認(rèn)識到的是"存儲器"是"存儲"的一種形式,而 且術(shù)語有時可以互換使用。
[0018] 因此,可以將替代語和同義詞用于本文中所討論的任意一個或多個術(shù)語,根據(jù)本 文是否闡述或討論術(shù)語,任何特殊的意義不會被定義。提供了某些術(shù)語的同義詞。一個或多 個同義詞的陳述不排除其它同義詞的使用。使用本說明書中的任何實(shí)施例,包括本文所討 論的任何術(shù)語的實(shí)施例僅是說明性的,并且不旨在進(jìn)一步限定本公開或任何實(shí)施例性術(shù)語 的范圍和含義。同樣地,本發(fā)明并不限于本說明書中給出的各個實(shí)施方式。
[0019] 在無意進(jìn)一步限定本公開內(nèi)容的范圍的情況下,儀器、裝置、方法和其相關(guān)結(jié)果, 根據(jù)本公開的實(shí)施方式在下文給出。注意,為讀者的方便起見,可以以實(shí)施例形式使用標(biāo)題 或副標(biāo)題,但它們決不應(yīng)限制本公開的范圍。除非另有定義,否則本文使用的所有技術(shù)和科 學(xué)術(shù)語具有與本公開內(nèi)容所屬領(lǐng)域的普通技術(shù)人員的通常理解相同的含義。在沖突的情況 下,以包括定義的本文件為準(zhǔn)。
[0020] 對所描述的技術(shù)的若干實(shí)施方式更詳細(xì)的描述參見附圖??梢栽谄渖蠈?shí)現(xiàn)所描述 的技術(shù)的計算設(shè)備可以包括一個或多個中央處理單元、存儲器、輸入設(shè)備的(例如,鍵盤和 定點(diǎn)設(shè)備)、輸出設(shè)備(例如,顯示設(shè)備)、存儲設(shè)備(例如,磁盤驅(qū)動器)和網(wǎng)絡(luò)設(shè)備(例如,網(wǎng) 絡(luò)接口)。存儲器和存儲設(shè)備是可以存儲實(shí)現(xiàn)至少一部分所描述的技術(shù)的指令的計算機(jī)可 讀存儲介質(zhì)。此外,可以經(jīng)由數(shù)據(jù)傳輸介質(zhì),諸如通信鏈路上的信號,存儲或傳輸數(shù)據(jù)結(jié)構(gòu) 和消息結(jié)構(gòu)??梢允褂酶鞣N通信鏈路,諸如因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或點(diǎn)對點(diǎn)撥號連接。因 此,計算機(jī)可讀介質(zhì)能夠包括計算機(jī)可讀存儲介質(zhì)(例如,"非臨時性"介質(zhì))和計算機(jī)可讀 傳輸介質(zhì)。
[0021] 系統(tǒng)總覽
[0022] 各種公開的實(shí)施方式涉及部分地基于檢測鏡頭轉(zhuǎn)換的視頻內(nèi)容分析。在一些實(shí)施 方式中,用于檢測視頻中鏡頭轉(zhuǎn)換的方法和計算機(jī)系統(tǒng)被用于將視頻序列分割成一系列具 有多個幀的"鏡頭"。這些鏡頭然后可以用于額外的處理,例如,視頻幀內(nèi)的內(nèi)容檢測。通常, 幀可以是數(shù)字視頻的基本離散單位。每個幀可以是一個圖像。
[0023] 圖1是示意框圖,描繪了可以在一些實(shí)施方式中實(shí)現(xiàn)的視頻處理操作100的各個方 面,包括鏡頭轉(zhuǎn)換檢測分析。視頻105可以包括幀110a-h的序列。這些幀110a-h可以包括像 素陣列、壓縮幀,例如MPEG幀內(nèi)幀,P幀等。
[0024]處理系統(tǒng)可以將幀110a-h組織為"鏡頭"115a_c。鏡頭是幀的集合。鏡頭可以是兩 個轉(zhuǎn)換(例如,擦除、切屏、溶解等)之間存在的幀的集合。在一些實(shí)施方式中,鏡頭通常包括 由表示在時間和空間上的連續(xù)動作的單個攝像機(jī)連續(xù)拍攝的相互關(guān)聯(lián)的連續(xù)幀。在所描繪 的實(shí)施例中,鏡頭1 115a描繪了一名男子正在拉雪撬,鏡頭2 115b描繪了該男人正在調(diào)整 雪橇上的物品,以及鏡頭3 115c描繪了小屋的兩個人物。在理想情況下,處理系統(tǒng)可以識別 適合用于后續(xù)分析的鏡頭。鏡頭可以被編入索引,例如,使用代表圖像120a-c。然后,可以將 被編入索引的視頻數(shù)據(jù)125提供給基于鏡頭的視頻處理系統(tǒng)130用于進(jìn)一步分析。例如,基 于鏡頭的視頻處理系統(tǒng)130可以包括適于某些視頻條件的多個工具。一種技術(shù)可以在描繪 了巨大開放空間的場景內(nèi)進(jìn)行目標(biāo)識別,而另一種技術(shù)可以更適合于演員臉部的特寫鏡 頭。因此,一些技術(shù)可能對于一些鏡頭比其他鏡頭更加成功。
[0025] 然而,適當(dāng)?shù)赝茖?dǎo)鏡頭115a_c之間的邊界幀可能是困難的。不當(dāng)?shù)剡x擇邊界可能 減少基于鏡頭的處理130的效率,并且可能導(dǎo)致識別目標(biāo)、受版權(quán)保護(hù)的材料等的失敗。例 如,視頻105的創(chuàng)建者可能已經(jīng)非法合并了受版權(quán)保護(hù)的材料,但是執(zhí)行了轉(zhuǎn)換(例如,翻 轉(zhuǎn))以避免檢測措施。在一些情況下,盡管存在轉(zhuǎn)換,基于鏡頭的處理130依然能夠檢測侵權(quán) 材料,但僅在材料沒有跨越鏡頭邊界分割的情況下。因此,對鏡頭邊界的準(zhǔn)確識別與分析方 法相關(guān)。
[0026] 內(nèi)容識別方法實(shí)施例
[0027] 圖2是流程圖,描繪了用于基于可以在一些實(shí)施方式中實(shí)現(xiàn)的逐幀畫面分析,確定 視頻中鏡頭轉(zhuǎn)換的方法200的各個步驟。
[0028] 在框205中,系統(tǒng)接收視頻數(shù)據(jù)。在框210中,系統(tǒng)可以設(shè)法確定視頻數(shù)據(jù)中的鏡頭 和它們的邊界。特別地,該系統(tǒng)可以分析該視頻所考