午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)的制作方法

文檔序號(hào):6594499閱讀:232來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理系統(tǒng),更具體地,涉及用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及 系統(tǒng)。
背景技術(shù)
通信對(duì)計(jì)算機(jī)系統(tǒng)性能的影響在宏觀(guān)層面(例如,刀片服務(wù)器及計(jì)算機(jī)集群)及 微觀(guān)層面(例如,在具有許多核心(core)的單一處理器芯片內(nèi))而言均持續(xù)增長(zhǎng)。用于計(jì) 算的傳統(tǒng)方法,其依賴(lài)于縮短經(jīng)由高速緩存層次對(duì)主存儲(chǔ)器的存取時(shí)間,正在到達(dá)收益遞 減(diminishingreturns)點(diǎn)。之所以如此,部分是因?yàn)镮/O數(shù)據(jù)傳輸相對(duì)于處理核心速度 的延時(shí)不斷增加以及高速緩存及全局通信線(xiàn)所需的(有限的)芯片上電力耗散預(yù)算的部分 不斷增加。同時(shí),嚴(yán)格的芯片上電力耗散約束已使許多主要的半導(dǎo)體公司轉(zhuǎn)移到多核心或 芯片多處理器(CMP)架構(gòu)。CMP的出現(xiàn)又對(duì)兩個(gè)主要領(lǐng)域中的通信基礎(chǔ)架構(gòu)造成更多挑戰(zhàn)。 具體地,CMP中處理核心的數(shù)目的不斷增加加劇了對(duì)芯片內(nèi)通信及芯片間通信的帶寬要求。 另外,與傳統(tǒng)單核心處理器芯片相比,CMP架構(gòu)大大增加了編程復(fù)雜性及最終生產(chǎn)率。流處理最近已作為用于基于CMP架構(gòu)及軟件管理的高速緩存組織的系統(tǒng)的替代 性計(jì)算模型方法而出現(xiàn)。許多類(lèi)別的重要應(yīng)用(例如,數(shù)字信號(hào)處理及多媒體應(yīng)用)呈現(xiàn) 對(duì)可并行處理的規(guī)則數(shù)據(jù)結(jié)構(gòu)的長(zhǎng)序列的相當(dāng)規(guī)則的存取,這與對(duì)數(shù)據(jù)庫(kù)中典型的復(fù)雜數(shù) 據(jù)記錄的更隨機(jī)的存取相反。對(duì)于這些應(yīng)用,利用專(zhuān)用處理器(諸如,nVidia 及amd/ati 圖形處理單元(GPU)或IBM 的Cell寬帶引擎)進(jìn)行的流處理的組合與應(yīng)用于通用CMP 架構(gòu)的傳統(tǒng)計(jì)算范例相比,可能提供更高的性能及更低的電力耗散。在圖1中示出了樣本流計(jì)算圖形。圖形100由被稱(chēng)作內(nèi)核(kernel) (102AU02B 及102C)的多個(gè)計(jì)算節(jié)點(diǎn)構(gòu)成,這些節(jié)點(diǎn)由表示從一個(gè)內(nèi)核去向另一內(nèi)核的數(shù)據(jù)流的邊 104A/104B連接。內(nèi)核指的是對(duì)數(shù)據(jù)流執(zhí)行計(jì)算的軟件代碼單元。在圖1的圖形100中, 這些數(shù)據(jù)流為單向的;即,數(shù)據(jù)從該圖的左側(cè)移動(dòng)(流動(dòng))至右側(cè),如箭頭所示。內(nèi)核可為 以下三種類(lèi)型之一源端102A(表示被產(chǎn)生作為對(duì)計(jì)算圖形的輸入的數(shù)據(jù)流的起源);宿端 102B(表示一個(gè)或多個(gè)流形式的最終結(jié)果);及規(guī)則內(nèi)核102C。內(nèi)核(102A至102C)可具 有一個(gè)或多個(gè)輸入流104A,且作為其特定計(jì)算的結(jié)果而產(chǎn)生一個(gè)或多個(gè)輸出流104B。通常,流計(jì)算圖形(例如,圖形100)表示針對(duì)計(jì)算機(jī)處理問(wèn)題的解決方案(例如, 檢測(cè)一些事件或找到輸入數(shù)據(jù)流——金融股票交易、感測(cè)數(shù)據(jù)相關(guān)性及其它——之間的模 式及復(fù)雜關(guān)系)。只要數(shù)據(jù)流正由計(jì)算內(nèi)核處理,該圖形即持續(xù)存在,且通常此時(shí)間為非常 長(zhǎng)的時(shí)間(數(shù)小時(shí)或數(shù)小時(shí)以上或無(wú)期限)。因此,認(rèn)為此圖形的拓?fù)錇楣潭ǖ?。處理這種流計(jì)算圖形中的一個(gè)挑戰(zhàn)為確定如何將計(jì)算節(jié)點(diǎn)(例如,內(nèi)核102A至 102C)分組成多個(gè)群組,以使得這些群組可被分配給計(jì)算機(jī)處理系統(tǒng)的物理計(jì)算節(jié)點(diǎn)。存在 執(zhí)行這種分組(也稱(chēng)為調(diào)度、嵌入,或在圖形理論中稱(chēng)作為圖形收縮(graph contraction) 的圖形理論變換)的許多可能方式。如圖1中所示,陰影群組(110A至110C)表示多個(gè)內(nèi) 核的分組,以使得被分配給一個(gè)群組(諸如,作為例子的群組110B)的內(nèi)核將位于一個(gè)物理
4計(jì)算節(jié)點(diǎn)內(nèi)或位于與快速局域通信網(wǎng)絡(luò)緊密耦接或通過(guò)使用該快速局域通信網(wǎng)絡(luò)而緊密 耦接的節(jié)點(diǎn)的集群內(nèi)。接著,可將從內(nèi)核的一個(gè)這種群組傳遞至另一群組的總聚集流視作 群組間的一個(gè)連接。就圖形理論而言,可將此視作已使規(guī)則計(jì)算節(jié)點(diǎn)(內(nèi)核)塌陷于其中 的超級(jí)節(jié)點(diǎn)??舍槍?duì)流計(jì)算圖形中的所有計(jì)算節(jié)點(diǎn)進(jìn)行此類(lèi)型的分組。由流計(jì)算圖形的內(nèi) 核之間的邊所表示的流可類(lèi)似地塌陷成超級(jí)邊,該超級(jí)邊表示在超級(jí)節(jié)點(diǎn)之間傳遞的所有 數(shù)據(jù)流的總和。例如,如圖1中所示,超級(jí)節(jié)點(diǎn)IlOC及IlOB共享在超級(jí)節(jié)點(diǎn)IlOB與超級(jí)節(jié)點(diǎn)IlOC 之間傳遞的三個(gè)流(從左向右)。現(xiàn)可將這三個(gè)流視作連接于超級(jí)節(jié)點(diǎn)IlOB與超級(jí)節(jié)點(diǎn) IlOC之間的一個(gè)流。實(shí)際上,原始數(shù)據(jù)流由流計(jì)算系統(tǒng)的物理通信構(gòu)件來(lái)聚集,以使得超級(jí) 節(jié)點(diǎn)IlOB處的進(jìn)入點(diǎn)將使來(lái)自一組內(nèi)核(例如,超級(jí)節(jié)點(diǎn)IlOB內(nèi)的內(nèi)核)的三個(gè)流多路 復(fù)用成一個(gè)流,且在另一端,內(nèi)核(超級(jí)節(jié)點(diǎn)IlOC內(nèi)的內(nèi)核)群組將去多路復(fù)用回這三個(gè) 流,且將其本地連接至在一個(gè)物理計(jì)算節(jié)點(diǎn)或這些節(jié)點(diǎn)的集群中所映射的適當(dāng)內(nèi)核。更感興趣的是將該流處理范例擴(kuò)展到不同領(lǐng)域(諸如,金融、數(shù)據(jù)挖掘及計(jì)算生 物學(xué))中的特定大規(guī)模應(yīng)用中。該擴(kuò)展需要超越在單一的類(lèi)GPU處理器上運(yùn)行流應(yīng)用程序, 而是替代地,涉及構(gòu)建大型可擴(kuò)展流處理系統(tǒng)(SPS),其中這些處理器中的許多由高速互連 網(wǎng)絡(luò)互連。然而,構(gòu)建大型可擴(kuò)展流處理系統(tǒng)遭遇各種缺陷,諸如,增加的傳輸帶寬的挑戰(zhàn) 以及從處理節(jié)點(diǎn)對(duì)存儲(chǔ)器中的大數(shù)據(jù)集合的存取時(shí)間的增加。因此,將需要提供一種克服上述缺陷的增強(qiáng)型流處理架構(gòu)。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法包括創(chuàng)建流計(jì) 算機(jī)處理(SCP)系統(tǒng)。SCP系統(tǒng)通過(guò)以下來(lái)創(chuàng)建形成處理器的超級(jí)節(jié)點(diǎn)集群(super node cluster),所述處理器表示所述超級(jí)節(jié)點(diǎn)集群內(nèi)的物理計(jì)算節(jié)點(diǎn),經(jīng)由本地互連裝置以通 信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器,和經(jīng)由多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié) 點(diǎn)集群以通信方式耦接到光學(xué)電路交換器(OCS)。OCS經(jīng)由從包括表示其它物理計(jì)算節(jié)點(diǎn) 的處理器的其它超級(jí)節(jié)點(diǎn)集群到光學(xué)電路交換器的其它多個(gè)外部鏈路以通信方式耦接到 所述其它超級(jí)節(jié)點(diǎn)集群。所述方法還包括產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形。所述方法 還包括將所述流計(jì)算圖形映射到流計(jì)算機(jī)處理系統(tǒng),其包括將計(jì)算的內(nèi)核分配給每一 個(gè)超級(jí)節(jié)點(diǎn)集群及每一個(gè)超級(jí)節(jié)點(diǎn)集群各自的物理計(jì)算節(jié)點(diǎn),當(dāng)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn) 集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù)據(jù)流流量分配給所述本地互連裝置, 以及當(dāng)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù)據(jù)流 流量分配給所述光學(xué)外部鏈路。所述方法還包括配置所述光學(xué)電路交換器以在對(duì)應(yīng)于所 述分配的已映射集群之間提供連接性。經(jīng)由本發(fā)明的技術(shù)來(lái)實(shí)現(xiàn)額外特征及優(yōu)勢(shì)。本發(fā)明的其它實(shí)施例及方面在本文中 被詳細(xì)描述且被認(rèn)為是所要求的本發(fā)明的一部分。為更好地理解具有這些優(yōu)勢(shì)及特征的本 發(fā)明,參考描述及附圖。


特別指出且在本說(shuō)明書(shū)的結(jié)尾處的權(quán)利要求中清楚地請(qǐng)求保護(hù)被視作本發(fā)明的主題。由結(jié)合附圖所進(jìn)行的以下詳細(xì)描述可以清楚理解本發(fā)明的上述及其它特征及優(yōu)勢(shì)。圖1為在節(jié)點(diǎn)分組的情況下的常規(guī)流計(jì)算圖形;圖2為根據(jù)本發(fā)明的例示性實(shí)施例的流計(jì)算機(jī)系統(tǒng)的圖;圖3為描述在本發(fā)明的例示性實(shí)施例中用于創(chuàng)建和管理流計(jì)算機(jī)系統(tǒng)的流處理 架構(gòu)的處理過(guò)程的流程圖;圖4說(shuō)明作為計(jì)算圖形的例子的、包括二元樹(shù)拓?fù)涞牧饔?jì)算圖形,該圖形說(shuō)明在 例示性實(shí)施例中該圖形的內(nèi)核如何分組成超級(jí)節(jié)點(diǎn)以及這些超級(jí)節(jié)點(diǎn)如何互連;和圖5A說(shuō)明例示性流計(jì)算機(jī)系統(tǒng),圖5B中示出的例示性流計(jì)算圖形被映射或嵌入 至該系統(tǒng)上。
具體實(shí)施例方式根據(jù)本發(fā)明的例示性實(shí)施例公開(kāi)了一種用于流計(jì)算機(jī)系統(tǒng)的互連流處理架構(gòu)及 一種用于實(shí)現(xiàn)該互連架構(gòu)的處理過(guò)程。該互連架構(gòu)由兩種網(wǎng)絡(luò)類(lèi)型構(gòu)成,這兩種網(wǎng)絡(luò)類(lèi)型 補(bǔ)充彼此的功能性且解決緊密耦接的處理節(jié)點(diǎn)群組間的連接性。這種群組或集群可使用多 種協(xié)議以及靜態(tài)網(wǎng)絡(luò)拓?fù)浼皠?dòng)態(tài)網(wǎng)絡(luò)拓?fù)鋬烧?例如,2D/3D網(wǎng)格、分層完全連接構(gòu)件、基 于交換器的構(gòu)件)而本地互連。網(wǎng)絡(luò)及交換器功能性可并入處理器芯片內(nèi),以使得可在沒(méi) 有外部交換器的情況下通過(guò)直接將處理器芯片彼此互連而得到集群。這種技術(shù)及協(xié)議的例 子為HyperTransp0rt3(HT;3)。互連的封裝限制、傳送信號(hào)速度及可允許距離限制了全電子 構(gòu)造的尺寸,因此,僅有限數(shù)目的處理器可在集群內(nèi)直接連接。實(shí)現(xiàn)極高性能等級(jí)(例如, 億億級(jí)(exascale))可需要互連于一個(gè)系統(tǒng)內(nèi)的多達(dá)100,000個(gè)未來(lái)多核心處理器芯片。 雖然可將集群限制為封裝于一個(gè)機(jī)柜內(nèi)的100個(gè)或100個(gè)以下的處理器芯片,但可能需要 互連約1000個(gè)或1000個(gè)以上的這種集群。在例示性實(shí)施例中,具有高帶寬且跨越更長(zhǎng)距 離的集群間連接將使用光學(xué)信號(hào)傳送,且流處理架構(gòu)使用基于微機(jī)電系統(tǒng)(MEMS)的OCS以 在這些集群間進(jìn)行連接。雖然許多大型設(shè)備中的節(jié)點(diǎn)至交換器的連接性為光學(xué)的以便提供所需的帶寬及 距離,但正在使用大基數(shù)的電交換器構(gòu)件(例如,對(duì)于InfiniBand或IOG以太網(wǎng)協(xié)議及交 換器)。這些構(gòu)件對(duì)于單一路徑需要至少兩個(gè)光學(xué)傳輸器(Tx)及兩個(gè)接收器(Rx),這是因 為通信從電的(來(lái)自處理器集群)被轉(zhuǎn)換至光的,接著被轉(zhuǎn)換至電的(對(duì)于交換器),接著 被轉(zhuǎn)換至光的(離開(kāi)交換器),且最終被轉(zhuǎn)換回電的(在目的地集群處),而本文中所描述 的例示性實(shí)施例的光學(xué)交換器僅需要一個(gè)Tx及一個(gè)Rx,這是因?yàn)樵摻粨Q器可經(jīng)由鏡使光 學(xué)信號(hào)直接偏轉(zhuǎn)。大基數(shù)的電交換器必需由較小基數(shù)的構(gòu)建區(qū)塊組成,這意味著這些交換 器傾向于為大型的且耗電多的(power-hungry)。光學(xué)電路交換器可具有大得多的單一交換 器基數(shù),且其保證具有顯著較小的尺寸及較低的電力消耗。在例示性實(shí)施例中,形成一集群的緊密耦接的處理器群組使用OCS網(wǎng)絡(luò)及光學(xué)收 發(fā)器來(lái)互連至SPS內(nèi)的其它這種集群。該OCS網(wǎng)絡(luò)允許靈活的點(diǎn)對(duì)點(diǎn)連接,其可在毫秒級(jí) 時(shí)間標(biāo)度上改變。由于處理器的未來(lái)帶寬將增加,因此OCS架構(gòu)的使用可利用相同交換網(wǎng) 絡(luò)來(lái)支持未來(lái)更高帶寬需求及協(xié)議。OCS網(wǎng)絡(luò)無(wú)需如同經(jīng)由分組交換網(wǎng)絡(luò)進(jìn)行路由般極迅 速地改變電路連接。對(duì)電路連接的調(diào)整僅需要在調(diào)整工作地點(diǎn)以使節(jié)點(diǎn)間的工作達(dá)成負(fù)載 平衡時(shí)進(jìn)行。由SPS執(zhí)行的計(jì)算的性質(zhì)是使得通信模式及其持續(xù)時(shí)間在相當(dāng)長(zhǎng)的時(shí)間(例如,數(shù)分鐘或數(shù)小時(shí))內(nèi)為穩(wěn)定的,以足以分?jǐn)?amortize)OCS的相對(duì)較高的交換時(shí)間(數(shù) 毫秒)。由于為使在不同處理器內(nèi)進(jìn)行的計(jì)算達(dá)成負(fù)載平衡而對(duì)工作安排進(jìn)行的調(diào)整為非 頻繁發(fā)生的操作(由于其自身的高計(jì)算成本及復(fù)雜性),因此,該例示性流處理架構(gòu)在總性 能上沒(méi)有明顯缺陷的情況下,在SPS需求的性質(zhì)與OCS互連技術(shù)的特定特征之間進(jìn)行唯一 匹配。事實(shí)上,使用此網(wǎng)絡(luò)(一旦經(jīng)重新配置)可導(dǎo)致更好的通信延時(shí),這是因?yàn)槠鋵?duì)協(xié)議 及數(shù)據(jù)帶寬不具有隊(duì)列擁塞,不具有競(jìng)爭(zhēng)且具有透通性。現(xiàn)轉(zhuǎn)向圖2,現(xiàn)將在例示性實(shí)施例中描述具有例示性流處理架構(gòu)的流計(jì)算機(jī)系統(tǒng) 200。流計(jì)算機(jī)系統(tǒng)200由連接在一起以形成多處理器202的多個(gè)單個(gè)物理計(jì)算節(jié)點(diǎn)201構(gòu) 成。多個(gè)這些處理器202被分在一起以形成超級(jí)節(jié)點(diǎn)集群204(本文中也稱(chēng)為“超級(jí)節(jié)點(diǎn)” 及“集群”)。由已知快速互連裝置206在本地連接集群204內(nèi)部的處理器(及各自的物理 計(jì)算節(jié)點(diǎn)),該已知快速互連裝置206可為在一集群內(nèi)的處理器202的物理計(jì)算節(jié)點(diǎn)之間 具有某種拓?fù)涞闹苯舆B接型網(wǎng)絡(luò);或交換器,經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件 而通過(guò)存儲(chǔ)器;或以上的組合。處理器202的每一集群204共享多個(gè)光學(xué)外部鏈路208。形 成這些外部鏈路以用于優(yōu)化極高帶寬下的點(diǎn)對(duì)點(diǎn)連接。該優(yōu)化可在所使用的物理實(shí)施中、 在被選擇來(lái)促進(jìn)這種高帶寬的協(xié)議中、在低延時(shí)集群對(duì)集群鏈路中進(jìn)行,且具有支持對(duì)一 個(gè)物理鏈路或多個(gè)物理鏈路內(nèi)的多個(gè)流的聚集以使其看起來(lái)像由少數(shù)物理鏈路構(gòu)成的一 條高帶寬物理鏈路的能力。由于這些外部鏈路經(jīng)由不會(huì)知曉該鏈路的協(xié)議、數(shù)據(jù)或內(nèi)容的 全光學(xué)交換器而進(jìn)行電路交換,因此這些鏈路應(yīng)使用極輕量級(jí)通信協(xié)議。此外,這些外部鏈 路的物理性質(zhì)可能需要在WDM(波分多路復(fù)用器)中使用多種光學(xué)波長(zhǎng),所有這些光學(xué)波長(zhǎng) 被耦接到一條光纖或一條外部鏈路中,但在兩端可被分離開(kāi)。基于鏡的MEMS OCS將在光學(xué) 域(optics domain)中使這些外部鏈路內(nèi)的光束偏轉(zhuǎn),而不管其波長(zhǎng)數(shù)目、協(xié)議及傳送信號(hào) 速度。這些外部鏈路為一集群內(nèi)的所有計(jì)算節(jié)點(diǎn)所共有,以使得集群204中的任何物理計(jì) 算節(jié)點(diǎn)201可直接或通過(guò)傳遞經(jīng)過(guò)在本地互連的集群構(gòu)件206而在這些外部鏈路208中的 一個(gè)或全部上傳遞信息。在一個(gè)例示性實(shí)施例中,使用電路交換式交換器210。電路交換式 交換器210無(wú)需頻繁交換,且因此構(gòu)建起來(lái)簡(jiǎn)單得多,且可使用不同技術(shù)(例如,全光學(xué)、基 于MEMS鏡)以在多個(gè)集群204之間動(dòng)態(tài)地連接。這些集群204之間的任何給定時(shí)間上的 特定連接是基于給定流計(jì)算圖形而被優(yōu)化的,由物理計(jì)算節(jié)點(diǎn)201及其所連接的集群204 執(zhí)行該給定流計(jì)算圖形的計(jì)算。這些類(lèi)型的外部鏈路208及動(dòng)態(tài)交換使得能夠得到在需要時(shí)動(dòng)態(tài)改變的極高吞 吐量(高帶寬)連接性。由于多核心處理芯片需要極高帶寬網(wǎng)絡(luò)以將這些芯片互連至其它 這種物理處理節(jié)點(diǎn)或存儲(chǔ)器子系統(tǒng),因此例示性流處理架構(gòu)在提供具體在功能上由流處理 計(jì)算圖形及其相對(duì)固定的性質(zhì)使能的這種機(jī)制方面起到重要的作用。這提供更有效的路 由,由于分組無(wú)需被重新檢查且被逐個(gè)分組地路由。電路交換器210的構(gòu)造可針對(duì)這種功 能且利用適當(dāng)技術(shù)(例如,全光學(xué)電路交換)而被優(yōu)化,可以高效地以極低電力及成本有效 地操縱大量信息(流)。注意圖2中所示的圖僅描繪該系統(tǒng)中的主數(shù)據(jù)管道也很重要。應(yīng)理解,提供該系 統(tǒng)中的所有集群/計(jì)算節(jié)點(diǎn)之間的完整連接性的另一較慢網(wǎng)絡(luò)(未示出)也被提供用于處 置較不忙碌的連接,以及用于控制及其它較低帶寬通信。因此,分組交換網(wǎng)絡(luò),例如,可用以 傳送被確定傳輸最小數(shù)據(jù)的那些數(shù)據(jù)流(例如,104)。所述確定可通過(guò)指定閾值函數(shù)(例如,在預(yù)定時(shí)間段內(nèi)傳遞的數(shù)據(jù)的量化數(shù)目,或特定計(jì)算的優(yōu)先級(jí)函數(shù)或其它這種系統(tǒng)及 操作相關(guān)參數(shù))來(lái)進(jìn)行,一旦達(dá)到該閾值,便經(jīng)由基于電路交換的網(wǎng)絡(luò)來(lái)路由流。因此,流 的路由可在全部被分配以傳遞通過(guò)分組交換網(wǎng)絡(luò)時(shí)開(kāi)始,而隨著計(jì)算進(jìn)行且更多帶寬在流 內(nèi)傳送,將重新定向這種路由以傳遞通過(guò)形成電路交換網(wǎng)絡(luò)的外部鏈路?,F(xiàn)轉(zhuǎn)向圖3,現(xiàn)將在例示性實(shí)施例中描述一流程圖,該流程圖描述用于實(shí)現(xiàn)流處理 架構(gòu)的處理過(guò)程。在圖3的流程圖中,步驟302至306涉及創(chuàng)建例示性流計(jì)算機(jī)處理系統(tǒng)。 步驟308涉及產(chǎn)生例示性流計(jì)算圖形,步驟310至316涉及將該流計(jì)算圖形映射到該流計(jì) 算機(jī)處理系統(tǒng),且步驟318涉及對(duì)于該流計(jì)算機(jī)處理系統(tǒng)執(zhí)行該流計(jì)算圖形?,F(xiàn)將描述流計(jì)算機(jī)處理系統(tǒng)的創(chuàng)建。在步驟302處,形成處理器(例如,圖2的處 理器20 的超級(jí)節(jié)點(diǎn)集群。在步驟304處,經(jīng)由本地已知的互連裝置(例如,圖2的網(wǎng)絡(luò) 206)以通信方式耦接該超級(jí)節(jié)點(diǎn)集群中的處理器中的每一個(gè)。該本地已知的互連裝置可使 用例如直接連接、經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器、交換器或其 組合來(lái)實(shí)現(xiàn)。在步驟306處,該超級(jí)節(jié)點(diǎn)集群(例如,圖2的集群204)經(jīng)由一個(gè)或多個(gè)光學(xué)外 部鏈路(例如,鏈路208)以通信方式耦接到一個(gè)或多個(gè)光學(xué)電路交換器(例如,圖2的交 換器210)。該光學(xué)電路交換器經(jīng)由從包括其它物理計(jì)算節(jié)點(diǎn)的處理器的其它超級(jí)節(jié)點(diǎn)集群 至光學(xué)電路交換器的光學(xué)外部鏈路以通信方式耦接到其它超級(jí)節(jié)點(diǎn)集群。如上文所指示,在步驟308處針對(duì)在步驟302至306中創(chuàng)建的流計(jì)算系統(tǒng)而產(chǎn)生 流計(jì)算圖形。該流計(jì)算圖形包括內(nèi)核及數(shù)據(jù)流。內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的數(shù)據(jù)流中的 一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元。圖4示出具有二元樹(shù)拓?fù)涞牧饔?jì)算圖形400。內(nèi)核 402將數(shù)據(jù)流404發(fā)送至其它內(nèi)核。這些內(nèi)核402被分組成多個(gè)超級(jí)節(jié)點(diǎn),諸如具有特定期 望性質(zhì)的超級(jí)節(jié)點(diǎn)410A及410B。如上文所指示,該流計(jì)算圖形被映射到該流計(jì)算機(jī)處理系統(tǒng),如現(xiàn)將描述的那樣。 現(xiàn)在轉(zhuǎn)向圖5A及圖5B,流計(jì)算圖形(例如,流計(jì)算圖形500B)的內(nèi)核及數(shù)據(jù)流被映射到可 重新配置的電路交換連接的集群(例如,流計(jì)算機(jī)系統(tǒng)500A的集群505A)上。在步驟310 處,將內(nèi)核分配給超級(jí)節(jié)點(diǎn)集群且分配給超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算節(jié)點(diǎn)。如 圖5B中所示,已分配諸如內(nèi)核502B的內(nèi)核給圖5A的系統(tǒng)500A上的物理計(jì)算節(jié)點(diǎn)(例如, 節(jié)點(diǎn)503A)。圖5B中所示的形成超級(jí)節(jié)點(diǎn)(例如,超級(jí)節(jié)點(diǎn)510B及512B)且與數(shù)據(jù)流(被 示為流504B)連接的節(jié)點(diǎn)的分組已被分別映射到圖5A中所示的結(jié)構(gòu)(參看連接501A)上。在步驟312處,當(dāng)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將內(nèi) 核之間的數(shù)據(jù)流流量分配給本地已知的互連裝置。在步驟314處,當(dāng)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將內(nèi) 核之間的數(shù)據(jù)流流量分配給光學(xué)外部鏈路。在步驟316處,光學(xué)電路交換器被配置以經(jīng)由外部鏈路而在對(duì)應(yīng)于所述分配的超 級(jí)節(jié)點(diǎn)集群之間提供連接性(如圖5A及圖5B中所示,已重新配置電路交換器520以提供 這些被映射的超級(jí)節(jié)點(diǎn)(例如,超級(jí)節(jié)點(diǎn)510B、512B、514B、516B、518B、520B)之間的所需連 接性)。集群之間的連接的建立(即,每一集群將使用外部鏈路經(jīng)由OCS交換器連接至特 定其它集群)是基于將內(nèi)核映射到物理處理節(jié)點(diǎn)上的優(yōu)化處理過(guò)程。在該處理過(guò)程的結(jié) 尾,正在計(jì)算作為整體在集群之間進(jìn)行的保留通信的總量(基于原始圖形中所有流邊的總和),從而得出每一集群與所有其它集群之間的通信所需的總帶寬。接著,經(jīng)由OCS交換器 配置適當(dāng)?shù)耐獠挎溌芬灾С秩魏渭号c所有其它集群之間的這種帶寬。經(jīng)由分組交換網(wǎng)絡(luò) 來(lái)路由較低帶寬閾值連接(即,并不值得使用高帶寬外部鏈路經(jīng)由OCS建立電路的那些連 接,這是因?yàn)闃O少預(yù)期數(shù)據(jù)傳遞通過(guò)那些連接)。在步驟318處,根據(jù)流計(jì)算圖形來(lái)執(zhí)行對(duì)流計(jì)算機(jī)處理系統(tǒng)的操作,以使得優(yōu)化 集群之間在給定時(shí)間的特定連接。因此,以上處理過(guò)程導(dǎo)致滿(mǎn)足流計(jì)算圖形的拓?fù)?圖4中示為二元樹(shù),作為可能的 這種圖形的例子)且動(dòng)態(tài)地改變電路交換器520以在集群505A間匹配所需的通信模式,同 時(shí)個(gè)別數(shù)據(jù)流的本地分離由集群互連506A在本地進(jìn)行(如圖5A及圖5B中所示)。如由上文所描述的例示性實(shí)施例可知,光學(xué)通信和流處理范例的組合解決了上述 編程及帶寬挑戰(zhàn)。光學(xué)通信鏈路提供超高吞吐量、最小通信延時(shí),及獨(dú)立于容量而保持的低 操作功率。與高基數(shù)的MEMS (微機(jī)電系統(tǒng))交換器組合的、可利用光學(xué)鏈路的容量、透明性 及基本上低功耗的光學(xué)電路交換互連網(wǎng)絡(luò)可遞送在全電互連的情況下完全不可能的帶寬/ 瓦特(bandwidth-per-watt)。另外,超高帶寬OCS互連網(wǎng)絡(luò)為用于SPS的最佳解決方案, SPS的計(jì)算性能直接取決于最大化當(dāng)前處理的流的I/O數(shù)據(jù)帶寬及最小化接下來(lái)將處理的 流的大DMA傳送的延時(shí)。另外,SPS通常在使用存活時(shí)間相對(duì)長(zhǎng)的處理器之間建立連接,因 此不擔(dān)心OCS的較長(zhǎng)交換時(shí)間。光學(xué)通信進(jìn)一步解決了 SPS的編程能力挑戰(zhàn),因?yàn)楣鈱W(xué)通信最小化從任何給定處 理節(jié)點(diǎn)對(duì)給定存儲(chǔ)器中的大數(shù)據(jù)集合的存取時(shí)間,而不管其相對(duì)位置。減少數(shù)據(jù)存取的時(shí) 間變化有助于簡(jiǎn)化流處理系統(tǒng)的建模。隨之,簡(jiǎn)化的抽象系統(tǒng)級(jí)模型促進(jìn)對(duì)獲得大規(guī)模流 應(yīng)用到SPS架構(gòu)上的平衡部署問(wèn)題的解決以最大化其持續(xù)的處理吞吐量。這種模型可進(jìn)一 步使能自動(dòng)優(yōu)化方法的開(kāi)發(fā),這些方法用于在編譯時(shí)間數(shù)據(jù)傳送及數(shù)據(jù)處理在整個(gè)SPS上 的靜態(tài)安排(static orchestration)與SPS操作期間通信及計(jì)算的動(dòng)態(tài)再平衡。本文中所使用的術(shù)語(yǔ)僅出于描述特定實(shí)施例的目的且并非意欲限制本發(fā)明。除非 上下文清楚地指示其它情形,否則如本文中所使用,單數(shù)形式“一”及“該”意欲也包括復(fù)數(shù) 形式。應(yīng)進(jìn)一步理解,當(dāng)在本說(shuō)明書(shū)中使用時(shí),術(shù)語(yǔ)“包括”指示所述特征、整數(shù)、步驟、操作、 單元和/或組件的存在,但并不排除存在或添加一個(gè)或多個(gè)其它特征、整數(shù)、步驟、操作、單 元組件和/或其群組。以下權(quán)利要求中的對(duì)應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置(means)或 步驟的等同旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能 的結(jié)構(gòu)、材料或操作。所給出的對(duì)本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的, 也并非是要把本發(fā)明限定到所表述的形式。對(duì)于所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不 偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對(duì)實(shí)施例的選擇和說(shuō)明 是為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,使所屬技術(shù)領(lǐng)域的普通技術(shù)人員能夠明了, 本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實(shí)施方式。本文中所描繪的流程圖僅為一個(gè)例子。在不脫離本發(fā)明的精神的情況下,可存在 對(duì)本文中所描述的圖或步驟(或操作)的許多變化。舉例而言,可按不同次序執(zhí)行這些步 驟,或者可添加、刪除或修改步驟。將所有這些變化看作為所要求的本發(fā)明的一部分。雖然已經(jīng)描述了本發(fā)明的優(yōu)選實(shí)施例,但所屬技術(shù)領(lǐng)域的普通技術(shù)人員應(yīng)理解,在現(xiàn)在及將來(lái),可進(jìn)行在以下權(quán)利要求范圍內(nèi)的各種改良及增強(qiáng)。這些權(quán)利要求應(yīng)被解釋 為保持對(duì)最初描述的本發(fā)明的適當(dāng)保護(hù)。
權(quán)利要求
1.一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法,包括 創(chuàng)建流計(jì)算機(jī)處理系統(tǒng),包括形成處理器的超級(jí)節(jié)點(diǎn)集群,所述處理器中的每一個(gè)包括所述超級(jí)節(jié)點(diǎn)集群內(nèi)的至少 一個(gè)物理計(jì)算節(jié)點(diǎn);經(jīng)由本地互連裝置以通信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器;和 經(jīng)由一個(gè)或多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié)點(diǎn)集群以通信方式耦接到至少一個(gè)光學(xué) 電路交換器,所述光學(xué)電路交換器經(jīng)由來(lái)自處理器的至少一個(gè)其它超級(jí)節(jié)點(diǎn)集群的一個(gè)或 多個(gè)光學(xué)外部鏈路以通信方式耦接到所述其它超級(jí)節(jié)點(diǎn)集群,所述至少一個(gè)其它超級(jí)節(jié)點(diǎn) 集群分別包括至少一個(gè)其它物理計(jì)算節(jié)點(diǎn);產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形,所述內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的所述數(shù)據(jù)流 中的一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元;將所述流計(jì)算圖形映射到所述流計(jì)算機(jī)處理系統(tǒng),包括將所述內(nèi)核分配給所述超級(jí)節(jié)點(diǎn)集群及所述超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算 節(jié)占. 當(dāng)各個(gè)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述本地互連裝置;當(dāng)各個(gè)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述光學(xué)外部鏈路;和配置所述光學(xué)電路交換器以經(jīng)由所述光學(xué)外部鏈路而在對(duì)應(yīng)于所述分配的所述超級(jí) 節(jié)點(diǎn)集群之間提供連接性;和根據(jù)所述流計(jì)算圖形對(duì)所述流計(jì)算機(jī)處理系統(tǒng)執(zhí)行操作。
2.如權(quán)利要求1所述的方法,其中配置所述光學(xué)電路交換器包括動(dòng)態(tài)地交換所述光學(xué)電路交換器的連接性,以反映對(duì)所述流計(jì)算圖形所做的改變。
3.如權(quán)利要求2所述的方法,其中對(duì)所述流計(jì)算圖形的改變反映負(fù)載平衡活動(dòng)。
4.如權(quán)利要求1所述的方法,其中超級(jí)節(jié)點(diǎn)集群內(nèi)的個(gè)別數(shù)據(jù)流是由所述超級(jí)節(jié)點(diǎn)集 群的相應(yīng)本地互連裝置管理的。
5.如權(quán)利要求4所述的方法,其中所述本地互連裝置由以下各項(xiàng)中的至少一個(gè)實(shí)現(xiàn) 直接連接;經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器;和 交換器。
6.如權(quán)利要求1所述的方法,其中所述物理計(jì)算節(jié)點(diǎn)是單一處理器。
7.如權(quán)利要求1所述的方法,其中所述物理計(jì)算節(jié)點(diǎn)是多處理器。
8.如權(quán)利要求1所述的方法,其中所述流計(jì)算圖形是使用二元樹(shù)拓?fù)洚a(chǎn)生的。
9.如權(quán)利要求1所述的方法,進(jìn)一步包括使用分組交換網(wǎng)絡(luò)傳送內(nèi)核之間的所述數(shù)據(jù)流中被確定為經(jīng)受最少數(shù)據(jù)傳遞的數(shù)據(jù) 流,所述確定是使用閾值函數(shù)做出的。
10.一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的系統(tǒng),包括流計(jì)算機(jī)處理系統(tǒng),所述流計(jì)算機(jī)處理系統(tǒng)通過(guò)以下而被創(chuàng)建 形成處理器的超級(jí)節(jié)點(diǎn)集群,所述處理器中的每一個(gè)包括所述超級(jí)節(jié)點(diǎn)集群內(nèi)的至少一個(gè)物理計(jì)算節(jié)點(diǎn);經(jīng)由本地互連裝置以通信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器;和 經(jīng)由一個(gè)或多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié)點(diǎn)集群以通信方式耦接到至少一個(gè)光學(xué) 電路交換器,所述光學(xué)電路交換器經(jīng)由來(lái)自處理器的至少一個(gè)其它超級(jí)節(jié)點(diǎn)集群的一個(gè)或 多個(gè)光學(xué)外部鏈路以通信方式耦接到所述其它超級(jí)節(jié)點(diǎn)集群,所述至少一個(gè)其它超級(jí)節(jié)點(diǎn) 集群分別包括至少一個(gè)其它物理計(jì)算節(jié)點(diǎn);包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形,所述內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的所述數(shù)據(jù)流中的 一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元;其中將所述流計(jì)算圖形映射到所述流計(jì)算機(jī)處理系統(tǒng),所述映射包括 將所述內(nèi)核分配給所述超級(jí)節(jié)點(diǎn)集群及所述超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算 節(jié)占.I— /、、、 當(dāng)各個(gè)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述本地互連裝置;當(dāng)各個(gè)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí),將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述光學(xué)外部鏈路;和配置所述光學(xué)電路交換器以經(jīng)由所述光學(xué)外部鏈路而在對(duì)應(yīng)于所述分配的所述超級(jí) 節(jié)點(diǎn)集群之間提供連接性;其中根據(jù)所述流計(jì)算圖形對(duì)所述流計(jì)算機(jī)處理系統(tǒng)執(zhí)行操作。
11.如權(quán)利要求10所述的系統(tǒng),其中配置所述光學(xué)電路交換器包括動(dòng)態(tài)地交換所述光學(xué)電路交換器的連接性,以反映對(duì)所述流計(jì)算圖形所做的改變。
12.如權(quán)利要求11所述的系統(tǒng),其中對(duì)所述流計(jì)算圖形的改變反映負(fù)載平衡活動(dòng)。
13.如權(quán)利要求10所述的系統(tǒng),其中超級(jí)節(jié)點(diǎn)集群內(nèi)的個(gè)別數(shù)據(jù)流是由所述超級(jí)節(jié)點(diǎn) 集群的相應(yīng)本地互連裝置管理的。
14.如權(quán)利要求13所述的系統(tǒng),其中所述本地互連裝置由以下各項(xiàng)中的至少一個(gè)實(shí)現(xiàn)直接連接;經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器;和 交換器。
15.如權(quán)利要求10所述的系統(tǒng),其中所述物理計(jì)算節(jié)點(diǎn)是單一處理器。
16.如權(quán)利要求10所述的系統(tǒng),其中所述物理計(jì)算節(jié)點(diǎn)是多處理器。
17.如權(quán)利要求10所述的系統(tǒng),其中所述流計(jì)算圖形是使用二元樹(shù)拓?fù)洚a(chǎn)生的。
18.如權(quán)利要求10所述的系統(tǒng),進(jìn)一步包括分組交換網(wǎng)絡(luò),所述分組交換網(wǎng)絡(luò)傳送內(nèi)核之間的所述數(shù)據(jù)流中被確定為經(jīng)受最少數(shù) 據(jù)傳遞的數(shù)據(jù)流,所述確定是使用閾值函數(shù)做出的。
全文摘要
本公開(kāi)涉及一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法,所述方法包括通過(guò)以下操作來(lái)創(chuàng)建流計(jì)算機(jī)處理(SCP)系統(tǒng)形成處理器的超級(jí)節(jié)點(diǎn)集群,所述處理器表示物理計(jì)算節(jié)點(diǎn)(“節(jié)點(diǎn)”),經(jīng)由本地互連裝置(“互連”)以通信方式耦接處理器,和經(jīng)由光學(xué)外部鏈路(“鏈路”)將集群以通信方式耦接到光學(xué)電路交換器(OCS)。OCS經(jīng)由鏈路以通信方式耦接到處理器的另一集群。所述方法還包括產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形,并將圖形映射到SCP系統(tǒng),其包括將內(nèi)核分配給集群及各自的節(jié)點(diǎn),當(dāng)數(shù)據(jù)流處于同一集群中的節(jié)點(diǎn)之間時(shí),將內(nèi)核之間的數(shù)據(jù)流流量分配給互連,以及當(dāng)數(shù)據(jù)流處于不同集群中的節(jié)點(diǎn)之間時(shí),將內(nèi)核之間的流量分配給鏈路。所述方法還包括配置OCS以在已映射集群之間提供連接性。
文檔編號(hào)G06F15/173GK102138138SQ200980132236
公開(kāi)日2011年7月27日 申請(qǐng)日期2009年8月13日 優(yōu)先權(quán)日2008年8月18日
發(fā)明者E·申菲爾德, T·B·史密斯三世 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1