午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種面向統(tǒng)一染色架構(gòu)的gpu3d引擎片上存儲(chǔ)層次結(jié)構(gòu)的制作方法

文檔序號:9788102閱讀:475來源:國知局
一種面向統(tǒng)一染色架構(gòu)的gpu3d引擎片上存儲(chǔ)層次結(jié)構(gòu)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)硬件技術(shù)領(lǐng)域,尤其涉及一種面向統(tǒng)一染色架構(gòu)的GPU3D引擎片上存儲(chǔ)層次結(jié)構(gòu)。
【背景技術(shù)】
[0002]隨著圖形化應(yīng)用的不斷增加,早期單靠CPU進(jìn)行圖形繪制的解決方案已經(jīng)難以滿足成績和技術(shù)增長的圖形處理需求,圖形處理器(Graphic Processing Unit,GPU)應(yīng)運(yùn)而生。從1999年Nvidia發(fā)布第一款GPU產(chǎn)品至今,GPU技術(shù)的發(fā)展主要經(jīng)歷了固定功能流水線階段、分離染色處理器架構(gòu)階段、統(tǒng)一染色處理器架構(gòu)階段,其圖形處理能力不斷提升,應(yīng)用領(lǐng)域也從最初的圖形繪制逐步擴(kuò)展到通用計(jì)算領(lǐng)域。GPU流水線高速、并行的特征和靈活的可編程能力,為圖形處理和通用并行計(jì)算提供了良好的運(yùn)行平臺。
[0003]圖形處理器的存儲(chǔ)層次結(jié)構(gòu)設(shè)計(jì)是GPU設(shè)計(jì)過程中的關(guān)鍵技術(shù),也是GPU設(shè)計(jì)的難點(diǎn)之一,其設(shè)計(jì)的優(yōu)劣直接影響圖形處理性能。統(tǒng)一染色架構(gòu)的GPU中,統(tǒng)一染色陣列資源利用率高,頂點(diǎn)和像素染色任務(wù)吞吐量大,對存儲(chǔ)帶寬和數(shù)據(jù)量的需求相對于分離染色架構(gòu)GPU來說大幅提升,面向統(tǒng)一染色架構(gòu)GPU3D引擎的高性能片上存儲(chǔ)層次結(jié)構(gòu)設(shè)計(jì)更為重要、也更加復(fù)雜。因此,如何通過合理的片上存儲(chǔ)層次結(jié)構(gòu)來捕捉數(shù)據(jù)訪問局部性,從而隱藏?cái)?shù)據(jù)訪問延遲,以及如何對所讀寫的存儲(chǔ)器數(shù)據(jù)進(jìn)行緩沖,從而提升顯示存儲(chǔ)器數(shù)據(jù)帶寬利用率是統(tǒng)一染色架構(gòu)GPU設(shè)計(jì)的核心內(nèi)容之一。

【發(fā)明內(nèi)容】

[0004]本發(fā)明為解決【背景技術(shù)】中存在的上述技術(shù)問題,而提供一種面向統(tǒng)一染色架構(gòu)的GPU 3D引擎片上存儲(chǔ)層次結(jié)構(gòu),從而能夠降低圖形處理過程中的數(shù)據(jù)訪問延遲,提升顯示存儲(chǔ)器的數(shù)據(jù)帶寬利用率。
[0005]本發(fā)明的技術(shù)解決方案是:本發(fā)明為一種面向統(tǒng)一染色架構(gòu)的GPU3D引擎片上存儲(chǔ)層次結(jié)構(gòu),其特殊之處在于:該結(jié)構(gòu)從上到下包括四層存儲(chǔ)結(jié)構(gòu),依次為寄存器層、片上SRAM&LlCache層,L2Cache層及顯不存儲(chǔ)器層;
[0006]所述寄存器層與片上SRAM&LlCache層相連,所述片上SRAM&LlCache層與L2Cache層或顯示存儲(chǔ)器層相連,所述L2Cache層與顯示存儲(chǔ)器層相連。
[0007]上述寄存器層包括多個(gè)圖形功能單元中的寄存器,如片段處理單元中的像素屬性寄存器、統(tǒng)一染色陣列中的定點(diǎn)/浮點(diǎn)寄存器組和紋理貼圖陣列中的紋素寄存器。
[0008]上述片上SRAM&LlCache層包括多個(gè)高速緩沖器和至少一個(gè)圖像數(shù)據(jù)緩沖器,如片段處理單元中的像素Cache和Z-buffer Cache、統(tǒng)一染色陣列中的Local SRAM/共享存儲(chǔ)器/指令LlCache/常量LICache、紋理貼圖陣列中的紋理LICache。
[0009]上述L2Cache層包含統(tǒng)一染色陣列中的常量SRAM、紋理貼圖陣列中的紋理L2Cache0
[0010]上述顯示存儲(chǔ)器層包括兩個(gè)存儲(chǔ)仲裁管理單元、第一存儲(chǔ)器和第二存儲(chǔ)器,所述存儲(chǔ)管理單元包括兩路獨(dú)立的第一 AXI訪存仲裁管理單元和第二 AXI訪存仲裁管理單元、兩路獨(dú)立的第一存儲(chǔ)控制器和第二存儲(chǔ)控制器;
[0011 ]所述兩路獨(dú)立的存儲(chǔ)控制器實(shí)現(xiàn)外部存儲(chǔ)器芯片的數(shù)據(jù)訪問和時(shí)序控制;
[0012]所述第一 AXI訪存仲裁管理單元I根據(jù)來自片上SRAM&LlCache層或L2Cache層的訪問請求,控制第一存儲(chǔ)控制器I從相應(yīng)的第一存儲(chǔ)器I中讀寫數(shù)據(jù);
[0013]所述第二 AXI訪存仲裁管理單元2根據(jù)來自片上SRAM&LlCache層或L2Cache層的訪問請求,控制第二存儲(chǔ)控制器2從相應(yīng)的第二存儲(chǔ)器2中讀寫數(shù)據(jù)。
[0014]上述層次結(jié)構(gòu)包含5中不同功能的存儲(chǔ)層次結(jié)構(gòu),分別是:像素?cái)?shù)據(jù)層次化存儲(chǔ)結(jié)構(gòu)、染色器陣列數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)、紋理數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)、主機(jī)接口數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)、視頻顯示數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu);
[0015]所述像素?cái)?shù)據(jù)層次化存儲(chǔ)結(jié)構(gòu)由寄存器層、片上SRAM&LlCache層和顯示存儲(chǔ)器層構(gòu)成;寄存器層中的ROP單元數(shù)據(jù)處理寄存器與片上SRAM&LlCache層的Z-buffer Cache和像素Cache分別相連,片上SRAM&LlCache層的Z-buffer Cache和像素Cache均與顯不存儲(chǔ)器層直接相連;
[0016]所述染色器陣列數(shù)據(jù)層次化存儲(chǔ)結(jié)構(gòu)由寄存器層、片上SRAM&LlCache層、L2Cache層和顯示存儲(chǔ)器層構(gòu)成;寄存器層中染色器單元的定點(diǎn)/浮點(diǎn)寄存器分別與片上SRAM&LlCache層染色器單元的LocalSRAM、共享存儲(chǔ)器、指令LICache、常量LlCache相連,片上SRAM&LlCache層的指令LlCache與顯示存儲(chǔ)器層相連,片上SRAM&LlCache層的常量LlCache與L2Cache層的常量SRAM相連;
[0017]所述紋理數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)由寄存器層、片上SRAM&LlCache層、L2Cache層和顯示存儲(chǔ)器層構(gòu)成;寄存器層中紋理單元O和紋理單元I的紋素寄存器分別與片上SRAM&LlCache層的紋理LlCacheO和紋理LlCachel相連,片上SRAM&LlCache層的紋理LlCacheO和紋理1^10&(31161相連均與1^20&0116層的紋理1^20&0116相連丄20&0116層的紋理1^20&0116與顯不存儲(chǔ)器層相連;
[0018]所述主機(jī)接口數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)由寄存器層和顯示存儲(chǔ)器層構(gòu)成;寄存器層中命令處理器寄存器、DMA控制器寄存器、DDR3調(diào)試通路寄存器、H.264寄存器與顯示存儲(chǔ)器層相連;
[0019]所述視頻顯示數(shù)據(jù)的層次化存儲(chǔ)結(jié)構(gòu)由寄存器層、片上SRAM&LlCache層和顯示存儲(chǔ)器層構(gòu)成;寄存器層中的顯示控制模塊處理寄存器與片上SRAM&LlCache層的視頻寫行緩沖器和視頻讀行緩沖器相連,片上SRAM&LlCache層的視頻寫行緩沖器和視頻讀行緩沖器與顯示存儲(chǔ)器層相連。
[0020]本發(fā)明具有以下優(yōu)點(diǎn):
[0021]1、本發(fā)明提供的GPU 3D引擎四層存儲(chǔ)結(jié)構(gòu)不但能夠降低圖形繪制和圖形功能執(zhí)行過程中的數(shù)據(jù)訪問延遲,充分捕捉圖形處理數(shù)據(jù)訪問的局部性,還能夠在圖形處理器進(jìn)行存儲(chǔ)器數(shù)據(jù)訪問時(shí)實(shí)現(xiàn)高效的數(shù)據(jù)緩沖,從而提升存儲(chǔ)器數(shù)據(jù)帶寬利用率。
[0022]2、寄存器層可以直接對片上SRAM&LlCache層進(jìn)行數(shù)據(jù)讀寫訪問,也可以通過片上SRAM&LlCache層對L2Cache層進(jìn)行訪問,L2Cache層對顯示存儲(chǔ)器層進(jìn)行訪問;片上SRAM&LlCache層可以直接對顯示存儲(chǔ)器層進(jìn)行讀寫訪問,大幅提升顯示存儲(chǔ)器層的存儲(chǔ)器數(shù)據(jù)帶寬利用率,降低數(shù)據(jù)訪問延遲。
[0023]3、當(dāng)寄存器層數(shù)據(jù)訪問存在局部性時(shí),片上SRAM&LlCache層能夠捕捉到這種局部性,能夠大幅減少對L2Cache層和顯示存儲(chǔ)器層的訪問請求數(shù)量,提高數(shù)據(jù)返回速度,從而提高訪問速度。
[0024]4、當(dāng)片上SRAM&LlCache層數(shù)據(jù)訪問發(fā)生缺失時(shí),L2Cache層仍能夠捕剩余的局部性,能夠大幅減少對顯示存儲(chǔ)器層的訪問請求數(shù)量,提高數(shù)據(jù)返回速度,從而提高訪問速度。
【附圖說明】
[0025]圖1是本發(fā)明的層次結(jié)構(gòu)框圖;
[0026]圖2是本發(fā)明的顯示存儲(chǔ)器層中存儲(chǔ)訪問控制和管理模塊結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和具體實(shí)施例,對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地表述。顯然,所表述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提所獲得的所有其他實(shí)施例,都屬于本發(fā)明的保護(hù)范圍。
[0028]參見圖1,本發(fā)明的結(jié)構(gòu)包括四層存儲(chǔ)結(jié)構(gòu),分別是:寄存器層、片上SRAM&LlCache層,L2Cache層,以及顯示存儲(chǔ)器層。寄存器層與片上SRAM層相連,片上SRAM層&LlCache層與L2Cache層或顯示存儲(chǔ)器層相連,L2Cache與顯示存儲(chǔ)器層相連。所述寄存器層可以直接對片上SRAM&LlCache層進(jìn)行數(shù)據(jù)讀寫訪問,也可以通過片上SRAM&LlCache層對
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1