編碼多個輸入圖像的方法及裝置、存放程序的存儲介質(zhì)的制作方法

文檔序號：9383431閱讀：358來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

編碼多個輸入圖像的方法及裝置、存放程序的存儲介質(zhì)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及對分別包含被攝體的不同信息的不同種類的多個輸入圖像進行編碼的方法及裝置、以及存放程序的存儲介質(zhì)。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中，對于由在時域上配置的幀序列構(gòu)成的運動圖像，考慮其幀間的冗余性的影像編碼(video coding)方法是已知的(例如，參照非專利文獻I)。在典型的影像編碼方法中，取代所輸入的原始圖像而傳輸P幀(predicted frame ;預(yù)測幀)和/或B幀(b1-direct1nal predicted frame ;雙向預(yù)測幀)。P幀是通過前向預(yù)測而計算出的幀，B幀是通過前向預(yù)測、后向預(yù)測以及雙向預(yù)測當(dāng)中的任一者而計算出的幀。
[0003]非專利文獻2公開將這樣的影像編碼的技術(shù)擴展至?xí)r域以及空間域來進行應(yīng)用的方法。即，根據(jù)非專利文獻2的示教內(nèi)容，能對于在時域以及空間域上配置的多個幀，生成P幀和/或B幀。
[0004]作為在空間域上配置的幀序列的一例，能列舉在使用多視點影像提供高清晰度的立體影像的三維影像技術(shù)中所使用的幀序列。這樣的立體影像通過以非常多的視點(例如，200個視點)分別攝像被攝體而得到的多視點影像來實現(xiàn)。通過使用視點內(nèi)插，對于在空間域上配置的幀序列，也能適用與針對在時域上配置的幀序列的編碼同樣的方法，該視點內(nèi)插使用距離圖這樣的三維信息來生成P幀和/或B幀。
[0005]非專利文獻3公開與多視點影像的編碼有關(guān)的手法。非專利文獻3公開如下手法:不僅在時域上而且在空間域上也使用視點內(nèi)插，從而根據(jù)深度信息等的三維信息來生成P幀和/或B幀。
[0006]此外，在本說明書中，將數(shù)據(jù)壓縮(變換)為與目的相符的碼這一動作記為編碼(encoding)，將變換后的碼復(fù)原(解碼)為原始的數(shù)據(jù)這一動作記為譯碼(decoding)。另夕卜，編碼處理(coding)這一用語指編碼單體、以及編碼和譯碼這兩者。
[0007]現(xiàn)有技術(shù)文獻
[0008]非專利文獻
[0009]非專利文獻1: Thomas Wiegand, Gary J.Sullivan, Gisle Bjontegaard, and AjayLuthra, "Overview of the H.264/AVC Video Coding Standard"，IEEE Transact1ns onCircuits and Systems for Video Technology, Vol.13, N0.7, pp.560-576, July 2003
[0010]非專利文獻2:Ρ.Merkle, K.Muller, A.Smolic, and T.Wiegand, "EfficientCompress1n of Mult1-view Video Exploiting inter-view dependencies based onH.264/MPEG4-AVC, "Proc.1CME 2006，pp.1717-1720
[0011]非專利文獻3: S.Yea, A.Vetro, "View synthesis predict1n for multiviewvideo coding'Signal Processing:1mage Communicat1n 24(2009)pp.89-100.
【發(fā)明內(nèi)容】

[0012]發(fā)明要解決的課題
[0013]根據(jù)非專利文獻I?3所公開的方法，生成的P幀以及B幀是以殘差(residualvalue)的形式進行傳輸?shù)?。在此，對殘差的信息進一步執(zhí)行數(shù)據(jù)壓縮處理。在該數(shù)據(jù)壓縮處理中，執(zhí)行圖像變換(典型地，離散余弦變換)、量化、熵編碼(entropy coding)等。在數(shù)據(jù)壓縮率高的情況下，由于執(zhí)行量化，數(shù)據(jù)尺寸減小，從而產(chǎn)生顯著的數(shù)據(jù)損失。也就是，其值小的殘差的信息基于數(shù)據(jù)壓縮處理而丟失。
[0014]另一方面，關(guān)于邊緣信息(edge informat1n)或邊界信息(boundaryinformat1n)這樣的幾個圖像的特征量，必須保證:即使數(shù)據(jù)壓縮率提高，該特征量也不發(fā)生丟失。
[0015]對于分別包含被攝體的不同信息的不同種類的多個輸入圖像，在壓縮效率以及壓縮質(zhì)量這兩者間取得平衡的編碼技術(shù)是需要的。
[0016]用于解決課題的手段
[0017]遵照本發(fā)明的一局面，提供編碼多個輸入圖像的方法。該方法包含如下步驟:獲取多個第I輸入圖像和多個第2輸入圖像的步驟，該多個第I輸入圖像包含被攝體的第I信息，該多個第2輸入圖像與多個第I輸入圖像分別對應(yīng)，且包含與被攝體的第I信息不同的第2信息；針對第I輸入圖像，根據(jù)包含在其他的第I輸入圖像以及第2輸入圖像的至少一者中的信息來計算第I預(yù)測圖像的步驟；根據(jù)第I輸入圖像與對應(yīng)的第I預(yù)測圖像的差分來生成第I殘差圖像的步驟；基于第I殘差圖像的像素值，在構(gòu)成第I殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的步驟；將第I殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的步驟；針對第2輸入圖像，根據(jù)包含在其他的第2輸入圖像以及第I輸入圖像的至少一者中的信息來計算第2預(yù)測圖像的步驟；根據(jù)第2輸入圖像與對應(yīng)的第2預(yù)測圖像的差分來生成第2殘差圖像的步驟；基于第2殘差圖像的像素值，在構(gòu)成第2殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的步驟；將第2殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的步驟；以及對變換后的第I殘差圖像、變換后的第2殘差圖像以及附加信息進行編碼的步驟，該附加信息用于確定第I殘差圖像以及第2殘差圖像各自的要以余數(shù)定義的區(qū)域。
[0018]優(yōu)選地，變換成余數(shù)的步驟包含如下步驟:對針對要以余數(shù)定義的區(qū)域的像素值執(zhí)行取模運算的步驟；獲取預(yù)測圖像的梯度信息的步驟；以及參照梯度強度與成為取模運算的除數(shù)的值的預(yù)先規(guī)定的對應(yīng)關(guān)系，基于獲取到的梯度信息來決定成為取模運算的除數(shù)的值的步驟。
[0019]優(yōu)選地，計算第I預(yù)測圖像的步驟包含使用與計算對象的第I輸入圖像對應(yīng)的第2輸入圖像以及先行的I個以上的第I輸入圖像來計算第I預(yù)測圖像的步驟。
[0020]或者優(yōu)選地，計算第2預(yù)測圖像的步驟包含使用針對與計算對象的第2輸入圖像對應(yīng)的第I輸入圖像的運動數(shù)據(jù)來計算第2預(yù)測圖像的步驟，針對第I輸入圖像的運動數(shù)據(jù)表示先行的第I輸入圖像與計算對象的第I輸入圖像之間的變化成分。
[0021]優(yōu)選地，計算第2預(yù)測圖像的步驟包含使用計算對象的第2輸入圖像以及先行的I個以上的第2輸入圖像來計算第2預(yù)測圖像的步驟。
[0022]遵照本發(fā)明的另一局面，提供存放對多個輸入圖像進行編碼的程序的存儲介質(zhì)。該程序使計算機執(zhí)行如下步驟:獲取多個第I輸入圖像和多個第2輸入圖像的步驟，該多個第I輸入圖像包含被攝體的第I信息，該多個第2輸入圖像與多個第I輸入圖像分別對應(yīng)，且包含與被攝體的第I信息不同的第2信息；針對第I輸入圖像，根據(jù)包含在其他的第I輸入圖像以及第2輸入圖像的至少一者中的信息來計算第I預(yù)測圖像的步驟；根據(jù)第I輸入圖像與對應(yīng)的第I預(yù)測圖像的差分來生成第I殘差圖像的步驟；基于第I殘差圖像的像素值，在構(gòu)成第I殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的步驟；將第I殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的步驟；針對第2輸入圖像，根據(jù)包含在其他的第2輸入圖像以及第I輸入圖像的至少一者中的信息來計算第2預(yù)測圖像的步驟；根據(jù)第2輸入圖像與對應(yīng)的第2預(yù)測圖像的差分來生成第2殘差圖像的步驟；基于第2殘差圖像的像素值，在構(gòu)成第2殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的步驟；將第2殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的步驟；以及對變換后的第I殘差圖像、變換后的第2殘差圖像以及附加信息進行編碼的步驟，該附加信息用于確定第I殘差圖像以及第2殘差圖像各自的要以余數(shù)定義的區(qū)域。
[0023]遵照本發(fā)明的又一局面，提供編碼多個輸入圖像的裝置。該裝置包含如下單元:獲取多個第I輸入圖像和多個第2輸入圖像的單元，該多個第I輸入圖像包含被攝體的第I信息，該多個第2輸入圖像與多個第I輸入圖像分別對應(yīng)，且包含與被攝體的第I信息不同的第2信息；針對第I輸入圖像，根據(jù)包含在其他的第I輸入圖像以及第2輸入圖像的至少一者中的信息來計算第I預(yù)測圖像的單元；根據(jù)第I輸入圖像與對應(yīng)的第I預(yù)測圖像的差分來生成第I殘差圖像的單元；基于第I殘差圖像的像素值，在構(gòu)成第I殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的單元；將第I殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的單元；針對第2輸入圖像，根據(jù)包含在其他的第2輸入圖像以及第I輸入圖像的至少一者中的信息來計算第2預(yù)測圖像的單元；根據(jù)第2輸入圖像與對應(yīng)的第2預(yù)測圖像的差分來生成第2殘差圖像的單元；基于第2殘差圖像的像素值，在構(gòu)成第2殘差圖像的像素當(dāng)中確定要以余數(shù)定義該像素值的區(qū)域的單元；將第2殘差圖像的要以余數(shù)定義的區(qū)域中所含的像素值變換成余數(shù)的單元；以及對變換后的第I殘差圖像、變換后的第2殘差圖像以及附加信息進行編碼的單元，該附加信息用于確定第I殘差圖像以及第2殘差圖像各自的要以余數(shù)定義的區(qū)域。
[0024]發(fā)明效果
[0025]根據(jù)本發(fā)明，能實現(xiàn)對于分別包含被攝體的不同信息的不同種類的多個輸入圖像取得了壓縮效率以及壓縮質(zhì)量的平衡的編碼技術(shù)。
【附圖說明】
[0026]圖1是表示包含本發(fā)明的實施方式所涉及的編碼/譯碼系統(tǒng)的立體影像再現(xiàn)系統(tǒng)的圖。
[0027]圖2是本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的編碼器的功能框圖。
[0028]圖3是本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的解碼器的功能框圖。
[0029]圖4是表示本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的面向針對多視點影像的編碼的構(gòu)成的功能框圖。
[0030]圖5是表示本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的面向針對多視點影像的譯碼的構(gòu)成的功能框圖。
[0031]圖6是本發(fā)明的實施方式所涉及的編碼器群的功能框圖。
[0032]圖7是表示基于本發(fā)明的實施方式所涉及的編碼的預(yù)測圖像的生成過程的一例的圖。
[0033]圖8是用于說明本發(fā)明的實施方式所涉及的余數(shù)與殘差的組合手法的圖。
[0034]圖9是本發(fā)明的實施方式所涉及的數(shù)據(jù)格式變換部的功能框圖。
[0035]圖10是表示用于決定在本發(fā)明的實施方式所涉及的余數(shù)的計算中所使用的系數(shù)的查詢(Lookup)表的一例的圖。
[0036]圖11是本發(fā)明的實施方式所涉及的數(shù)據(jù)格式變換部的另一功能框圖。
[0037]圖12是本發(fā)明的實施方式所涉及的數(shù)據(jù)格式逆變換部的功能框圖。
[0038]圖13是本發(fā)明的實施方式所涉及的解碼器群的功能框圖。
[0039]圖14是表示作為發(fā)送機發(fā)揮功能的信息處理裝置的硬件構(gòu)成的示意圖。
[0040]圖15是表示作為接收機發(fā)揮功能的信息處理裝置的硬件構(gòu)成的示意圖。
【具體實施方式】
[0041]參照附圖來詳細(xì)說明本發(fā)明的實施方式。此外，對圖中的相同或相當(dāng)部分賦予同一附圖標(biāo)記并省略其說明。
[0042][A.應(yīng)用例]
[0043]首先，為了使針對本發(fā)明的實施方式所涉及的編碼/譯碼系統(tǒng)的理解容易，說明典型的應(yīng)用例。此外，當(dāng)然，本發(fā)明的實施方式所涉及的編碼/譯碼系統(tǒng)的應(yīng)用范圍不限于以下所示的構(gòu)成，能應(yīng)用于任意的構(gòu)成。另外，關(guān)于對僅執(zhí)行編碼以及譯碼的任一者的方法、裝置、程序、其程序進行存放的存儲介質(zhì)等，也能包含于本發(fā)明的范圍。
[0044]圖1是表示包含本發(fā)明的實施方式所涉及的編碼/譯碼系統(tǒng)的立體影像再現(xiàn)系統(tǒng)I的圖。參照圖1，在立體影像再現(xiàn)系統(tǒng)I中，使用由多個攝像頭10組成的攝像頭陣列對被攝體2進行攝像來生成多視點影像。多視點影像相當(dāng)于從多個視點分別攝像被攝體2而得到的圖像群。該多視點影像在由作為發(fā)送機發(fā)揮功能的信息處理裝置100編碼后進行傳輸。然后，通過編碼而生成的數(shù)據(jù)由作為接收機發(fā)揮功能的信息處理裝置200進行譯碼，并在立體顯示裝置300中再現(xiàn)該被攝體2。S卩，立體顯示裝置300顯示被攝體2的立體影像。此外，關(guān)于從發(fā)送機到接收機的數(shù)據(jù)傳輸，不問有線以及無線，能使用任意的介質(zhì)。
[0045]在本發(fā)明的實施方式中，對彼此關(guān)聯(lián)的不同種類的圖像群執(zhí)行編碼。作為典型例，根據(jù)由攝像頭陣列獲取到的多視點影像來生成多個影像和多個深度信息(depth map ;深度圖)，并對各影像和深度信息執(zhí)行編碼。影像包含各視點下的亮度信息或顏色信息(即，各色彩分量的灰度信息)，深度信息包含從攝像的視點起至圖像內(nèi)的各點為止的距離(深度)的信息。典型地，影像包含按色彩分量而定義的灰度圖像(灰度值的圖)，深度信息包含各像素位置上的將距離作為像素值進行定義的灰度圖像(灰度值的圖)。
[0046]作為發(fā)送機發(fā)揮功能的信息處理裝置100包含:執(zhí)行針對所輸入的圖像的預(yù)處理的預(yù)處理器110、執(zhí)行針對影像的編碼的編碼器120以及執(zhí)行針對深度信息的編碼的編碼器140。作為由預(yù)處理器110執(zhí)行的預(yù)處理，包含根據(jù)影像信號來生成深度信息的處理。編碼器120與編碼器140彼此共享信息來執(zhí)行編碼。通過在這樣的編碼器間采用能信息共享的機構(gòu)，從而利用圖像間的關(guān)聯(lián)性(也就是，冗余性)，實現(xiàn)更高效的壓縮處理。
[0047]由信息處理裝置100執(zhí)行的各編碼如后所述，包含數(shù)據(jù)格式變換以及數(shù)據(jù)壓縮的處理。S卩，本發(fā)明的實施方式所涉及的編碼器并行地執(zhí)行數(shù)據(jù)格式變換以及數(shù)據(jù)壓縮。
[0048]另一方面，作為接收機發(fā)揮功能的信息處理裝置200包含:對接收到的數(shù)據(jù)執(zhí)行譯碼的解碼器210及230、以及執(zhí)行后置處理的后處理器240。解碼器210對接收到的數(shù)據(jù)中所含的影像有關(guān)的數(shù)據(jù)進行譯碼，解碼器230對接收到的數(shù)據(jù)中所含的深度信息有關(guān)的數(shù)據(jù)進行譯碼。對應(yīng)于共享上述那樣信息的編碼，解碼器210與解碼器230彼此共享信息來執(zhí)行譯碼。后處理器240對解碼器210以及230的譯碼結(jié)果執(zhí)行給定的處理，從而按投影機陣列302來生成用于由立體顯示裝置300再現(xiàn)被攝體2的信號。
[0049]由信息處理裝置200執(zhí)行的各譯碼如后所述，包含數(shù)據(jù)格式逆變換以及數(shù)據(jù)復(fù)原的處理。即，本發(fā)明的實施方式所涉及的解碼器并行地執(zhí)行數(shù)據(jù)格式逆變換以及數(shù)據(jù)復(fù)原。
[0050]立體顯示裝置300包含:主要由擴散膜312及聚光透鏡314構(gòu)成的顯示屏310、以及向顯示屏310投影多視點影像的投影機陣列302。構(gòu)成投影機陣列302的各投影機將從信息處理裝置200輸出的多視點影像的對應(yīng)的視點的圖像向顯示屏310投影。
[0051]根據(jù)這樣的立體影像再現(xiàn)系統(tǒng)1，向位于顯示屏310之前的觀察者提供被攝體2的再現(xiàn)立體像。此時，根據(jù)顯示屏310與觀察者的相對位置，進入觀察者視野的視點的圖像將變化，觀察者獲得仿佛位于被攝體2之前那樣的體驗。
[0052]這樣的立體影像再現(xiàn)系統(tǒng)I作為一般用途，在電影院或娛樂設(shè)施等中利用，作為產(chǎn)業(yè)用途，期待作為遠(yuǎn)程醫(yī)療系統(tǒng)、工業(yè)設(shè)計設(shè)計系統(tǒng)、公共視圖聯(lián)結(jié)(public viewing)等電子廣告系統(tǒng)進行利用。
[0053][B.關(guān)聯(lián)技術(shù)(其I)]
[0054]首先，說明與本發(fā)明的實施方式所涉及的編碼/譯碼系統(tǒng)關(guān)聯(lián)的技術(shù)。針對作為運動圖像的壓縮規(guī)格之一的 MPEG - 4AVC(ITU-T Recommendat1n H.264 | IS0/IEC14496-lOAdvanced Video Coding)的編碼以及譯碼進行說明。
[0055]圖2是本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的編碼器820的功能框圖。圖3是本發(fā)明的關(guān)聯(lián)技術(shù)所涉及的解碼器910的功能框圖。
[0056]首先，參照圖2來說明編碼。在圖2所示的編碼器820中，作為來自輸入源的運動圖像(即，配置于時域的幀序列)的影像信號的各幀被分割為多個宏塊(Macroblock)，各宏塊使用幀內(nèi)預(yù)測(intra flame predict1n)或幀間預(yù)測(inter flame predict1n)進行內(nèi)插。幀內(nèi)預(yù)測是從同一幀的其他宏塊內(nèi)插作為對象的宏塊的方法。另一方

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5 6

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邁赫達德·帕納坡爾·德黑蘭尼;石川彰夫;河北真宏;井上直己;藤井俊彰;
技術(shù)所有人：國立研究開發(fā)法人情報通信研究機構(gòu);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>