用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)的制作方法

文檔序號(hào)：6594499閱讀：232來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)處理系統(tǒng)，更具體地，涉及用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)。
背景技術(shù)：
通信對(duì)計(jì)算機(jī)系統(tǒng)性能的影響在宏觀(guān)層面(例如，刀片服務(wù)器及計(jì)算機(jī)集群)及微觀(guān)層面(例如，在具有許多核心(core)的單一處理器芯片內(nèi))而言均持續(xù)增長(zhǎng)。用于計(jì) 算的傳統(tǒng)方法，其依賴(lài)于縮短經(jīng)由高速緩存層次對(duì)主存儲(chǔ)器的存取時(shí)間，正在到達(dá)收益遞減(diminishingreturns)點(diǎn)。之所以如此，部分是因?yàn)镮/O數(shù)據(jù)傳輸相對(duì)于處理核心速度的延時(shí)不斷增加以及高速緩存及全局通信線(xiàn)所需的(有限的)芯片上電力耗散預(yù)算的部分不斷增加。同時(shí)，嚴(yán)格的芯片上電力耗散約束已使許多主要的半導(dǎo)體公司轉(zhuǎn)移到多核心或芯片多處理器(CMP)架構(gòu)。CMP的出現(xiàn)又對(duì)兩個(gè)主要領(lǐng)域中的通信基礎(chǔ)架構(gòu)造成更多挑戰(zhàn)。具體地，CMP中處理核心的數(shù)目的不斷增加加劇了對(duì)芯片內(nèi)通信及芯片間通信的帶寬要求。另外，與傳統(tǒng)單核心處理器芯片相比，CMP架構(gòu)大大增加了編程復(fù)雜性及最終生產(chǎn)率。流處理最近已作為用于基于CMP架構(gòu)及軟件管理的高速緩存組織的系統(tǒng)的替代性計(jì)算模型方法而出現(xiàn)。許多類(lèi)別的重要應(yīng)用(例如，數(shù)字信號(hào)處理及多媒體應(yīng)用)呈現(xiàn) 對(duì)可并行處理的規(guī)則數(shù)據(jù)結(jié)構(gòu)的長(zhǎng)序列的相當(dāng)規(guī)則的存取，這與對(duì)數(shù)據(jù)庫(kù)中典型的復(fù)雜數(shù) 據(jù)記錄的更隨機(jī)的存取相反。對(duì)于這些應(yīng)用，利用專(zhuān)用處理器(諸如，nVidia 及amd/ati 圖形處理單元(GPU)或IBM 的Cell寬帶引擎)進(jìn)行的流處理的組合與應(yīng)用于通用CMP 架構(gòu)的傳統(tǒng)計(jì)算范例相比，可能提供更高的性能及更低的電力耗散。在圖1中示出了樣本流計(jì)算圖形。圖形100由被稱(chēng)作內(nèi)核(kernel) (102AU02B 及102C)的多個(gè)計(jì)算節(jié)點(diǎn)構(gòu)成，這些節(jié)點(diǎn)由表示從一個(gè)內(nèi)核去向另一內(nèi)核的數(shù)據(jù)流的邊 104A/104B連接。內(nèi)核指的是對(duì)數(shù)據(jù)流執(zhí)行計(jì)算的軟件代碼單元。在圖1的圖形100中，這些數(shù)據(jù)流為單向的；即，數(shù)據(jù)從該圖的左側(cè)移動(dòng)(流動(dòng))至右側(cè)，如箭頭所示。內(nèi)核可為以下三種類(lèi)型之一源端102A(表示被產(chǎn)生作為對(duì)計(jì)算圖形的輸入的數(shù)據(jù)流的起源)；宿端 102B(表示一個(gè)或多個(gè)流形式的最終結(jié)果)；及規(guī)則內(nèi)核102C。內(nèi)核(102A至102C)可具有一個(gè)或多個(gè)輸入流104A，且作為其特定計(jì)算的結(jié)果而產(chǎn)生一個(gè)或多個(gè)輸出流104B。通常，流計(jì)算圖形(例如，圖形100)表示針對(duì)計(jì)算機(jī)處理問(wèn)題的解決方案(例如，檢測(cè)一些事件或找到輸入數(shù)據(jù)流——金融股票交易、感測(cè)數(shù)據(jù)相關(guān)性及其它——之間的模式及復(fù)雜關(guān)系)。只要數(shù)據(jù)流正由計(jì)算內(nèi)核處理，該圖形即持續(xù)存在，且通常此時(shí)間為非常長(zhǎng)的時(shí)間(數(shù)小時(shí)或數(shù)小時(shí)以上或無(wú)期限)。因此，認(rèn)為此圖形的拓?fù)錇楣潭ǖ?。處理這種流計(jì)算圖形中的一個(gè)挑戰(zhàn)為確定如何將計(jì)算節(jié)點(diǎn)(例如，內(nèi)核102A至 102C)分組成多個(gè)群組，以使得這些群組可被分配給計(jì)算機(jī)處理系統(tǒng)的物理計(jì)算節(jié)點(diǎn)。存在執(zhí)行這種分組(也稱(chēng)為調(diào)度、嵌入，或在圖形理論中稱(chēng)作為圖形收縮(graph contraction) 的圖形理論變換)的許多可能方式。如圖1中所示，陰影群組(110A至110C)表示多個(gè)內(nèi) 核的分組，以使得被分配給一個(gè)群組(諸如，作為例子的群組110B)的內(nèi)核將位于一個(gè)物理
4計(jì)算節(jié)點(diǎn)內(nèi)或位于與快速局域通信網(wǎng)絡(luò)緊密耦接或通過(guò)使用該快速局域通信網(wǎng)絡(luò)而緊密耦接的節(jié)點(diǎn)的集群內(nèi)。接著，可將從內(nèi)核的一個(gè)這種群組傳遞至另一群組的總聚集流視作群組間的一個(gè)連接。就圖形理論而言，可將此視作已使規(guī)則計(jì)算節(jié)點(diǎn)(內(nèi)核)塌陷于其中的超級(jí)節(jié)點(diǎn)?？舍槍?duì)流計(jì)算圖形中的所有計(jì)算節(jié)點(diǎn)進(jìn)行此類(lèi)型的分組。由流計(jì)算圖形的內(nèi) 核之間的邊所表示的流可類(lèi)似地塌陷成超級(jí)邊，該超級(jí)邊表示在超級(jí)節(jié)點(diǎn)之間傳遞的所有數(shù)據(jù)流的總和。例如，如圖1中所示，超級(jí)節(jié)點(diǎn)IlOC及IlOB共享在超級(jí)節(jié)點(diǎn)IlOB與超級(jí)節(jié)點(diǎn)IlOC 之間傳遞的三個(gè)流(從左向右)。現(xiàn)可將這三個(gè)流視作連接于超級(jí)節(jié)點(diǎn)IlOB與超級(jí)節(jié)點(diǎn) IlOC之間的一個(gè)流。實(shí)際上，原始數(shù)據(jù)流由流計(jì)算系統(tǒng)的物理通信構(gòu)件來(lái)聚集，以使得超級(jí) 節(jié)點(diǎn)IlOB處的進(jìn)入點(diǎn)將使來(lái)自一組內(nèi)核(例如，超級(jí)節(jié)點(diǎn)IlOB內(nèi)的內(nèi)核)的三個(gè)流多路復(fù)用成一個(gè)流，且在另一端，內(nèi)核(超級(jí)節(jié)點(diǎn)IlOC內(nèi)的內(nèi)核)群組將去多路復(fù)用回這三個(gè) 流，且將其本地連接至在一個(gè)物理計(jì)算節(jié)點(diǎn)或這些節(jié)點(diǎn)的集群中所映射的適當(dāng)內(nèi)核。更感興趣的是將該流處理范例擴(kuò)展到不同領(lǐng)域(諸如，金融、數(shù)據(jù)挖掘及計(jì)算生物學(xué))中的特定大規(guī)模應(yīng)用中。該擴(kuò)展需要超越在單一的類(lèi)GPU處理器上運(yùn)行流應(yīng)用程序，而是替代地，涉及構(gòu)建大型可擴(kuò)展流處理系統(tǒng)(SPS)，其中這些處理器中的許多由高速互連網(wǎng)絡(luò)互連。然而，構(gòu)建大型可擴(kuò)展流處理系統(tǒng)遭遇各種缺陷，諸如，增加的傳輸帶寬的挑戰(zhàn) 以及從處理節(jié)點(diǎn)對(duì)存儲(chǔ)器中的大數(shù)據(jù)集合的存取時(shí)間的增加。因此，將需要提供一種克服上述缺陷的增強(qiáng)型流處理架構(gòu)。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)實(shí)施例，一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法包括創(chuàng)建流計(jì) 算機(jī)處理(SCP)系統(tǒng)。SCP系統(tǒng)通過(guò)以下來(lái)創(chuàng)建形成處理器的超級(jí)節(jié)點(diǎn)集群(super node cluster)，所述處理器表示所述超級(jí)節(jié)點(diǎn)集群內(nèi)的物理計(jì)算節(jié)點(diǎn)，經(jīng)由本地互連裝置以通信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器，和經(jīng)由多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié) 點(diǎn)集群以通信方式耦接到光學(xué)電路交換器(OCS)。OCS經(jīng)由從包括表示其它物理計(jì)算節(jié)點(diǎn) 的處理器的其它超級(jí)節(jié)點(diǎn)集群到光學(xué)電路交換器的其它多個(gè)外部鏈路以通信方式耦接到所述其它超級(jí)節(jié)點(diǎn)集群。所述方法還包括產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形。所述方法還包括將所述流計(jì)算圖形映射到流計(jì)算機(jī)處理系統(tǒng)，其包括將計(jì)算的內(nèi)核分配給每一個(gè)超級(jí)節(jié)點(diǎn)集群及每一個(gè)超級(jí)節(jié)點(diǎn)集群各自的物理計(jì)算節(jié)點(diǎn)，當(dāng)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn) 集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù)據(jù)流流量分配給所述本地互連裝置，以及當(dāng)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù)據(jù)流流量分配給所述光學(xué)外部鏈路。所述方法還包括配置所述光學(xué)電路交換器以在對(duì)應(yīng)于所述分配的已映射集群之間提供連接性。經(jīng)由本發(fā)明的技術(shù)來(lái)實(shí)現(xiàn)額外特征及優(yōu)勢(shì)。本發(fā)明的其它實(shí)施例及方面在本文中被詳細(xì)描述且被認(rèn)為是所要求的本發(fā)明的一部分。為更好地理解具有這些優(yōu)勢(shì)及特征的本發(fā)明，參考描述及附圖。

特別指出且在本說(shuō)明書(shū)的結(jié)尾處的權(quán)利要求中清楚地請(qǐng)求保護(hù)被視作本發(fā)明的主題。由結(jié)合附圖所進(jìn)行的以下詳細(xì)描述可以清楚理解本發(fā)明的上述及其它特征及優(yōu)勢(shì)。圖1為在節(jié)點(diǎn)分組的情況下的常規(guī)流計(jì)算圖形；圖2為根據(jù)本發(fā)明的例示性實(shí)施例的流計(jì)算機(jī)系統(tǒng)的圖；圖3為描述在本發(fā)明的例示性實(shí)施例中用于創(chuàng)建和管理流計(jì)算機(jī)系統(tǒng)的流處理架構(gòu)的處理過(guò)程的流程圖；圖4說(shuō)明作為計(jì)算圖形的例子的、包括二元樹(shù)拓?fù)涞牧饔?jì)算圖形，該圖形說(shuō)明在例示性實(shí)施例中該圖形的內(nèi)核如何分組成超級(jí)節(jié)點(diǎn)以及這些超級(jí)節(jié)點(diǎn)如何互連；和圖5A說(shuō)明例示性流計(jì)算機(jī)系統(tǒng)，圖5B中示出的例示性流計(jì)算圖形被映射或嵌入至該系統(tǒng)上。
具體實(shí)施例方式根據(jù)本發(fā)明的例示性實(shí)施例公開(kāi)了一種用于流計(jì)算機(jī)系統(tǒng)的互連流處理架構(gòu)及一種用于實(shí)現(xiàn)該互連架構(gòu)的處理過(guò)程。該互連架構(gòu)由兩種網(wǎng)絡(luò)類(lèi)型構(gòu)成，這兩種網(wǎng)絡(luò)類(lèi)型補(bǔ)充彼此的功能性且解決緊密耦接的處理節(jié)點(diǎn)群組間的連接性。這種群組或集群可使用多種協(xié)議以及靜態(tài)網(wǎng)絡(luò)拓?fù)浼皠?dòng)態(tài)網(wǎng)絡(luò)拓?fù)鋬烧?例如，2D/3D網(wǎng)格、分層完全連接構(gòu)件、基于交換器的構(gòu)件)而本地互連。網(wǎng)絡(luò)及交換器功能性可并入處理器芯片內(nèi)，以使得可在沒(méi) 有外部交換器的情況下通過(guò)直接將處理器芯片彼此互連而得到集群。這種技術(shù)及協(xié)議的例子為HyperTransp0rt3(HT;3)。互連的封裝限制、傳送信號(hào)速度及可允許距離限制了全電子構(gòu)造的尺寸，因此，僅有限數(shù)目的處理器可在集群內(nèi)直接連接。實(shí)現(xiàn)極高性能等級(jí)(例如，億億級(jí)(exascale))可需要互連于一個(gè)系統(tǒng)內(nèi)的多達(dá)100，000個(gè)未來(lái)多核心處理器芯片。雖然可將集群限制為封裝于一個(gè)機(jī)柜內(nèi)的100個(gè)或100個(gè)以下的處理器芯片，但可能需要互連約1000個(gè)或1000個(gè)以上的這種集群。在例示性實(shí)施例中，具有高帶寬且跨越更長(zhǎng)距離的集群間連接將使用光學(xué)信號(hào)傳送，且流處理架構(gòu)使用基于微機(jī)電系統(tǒng)(MEMS)的OCS以在這些集群間進(jìn)行連接。雖然許多大型設(shè)備中的節(jié)點(diǎn)至交換器的連接性為光學(xué)的以便提供所需的帶寬及距離，但正在使用大基數(shù)的電交換器構(gòu)件(例如，對(duì)于InfiniBand或IOG以太網(wǎng)協(xié)議及交換器)。這些構(gòu)件對(duì)于單一路徑需要至少兩個(gè)光學(xué)傳輸器(Tx)及兩個(gè)接收器(Rx)，這是因為通信從電的(來(lái)自處理器集群)被轉(zhuǎn)換至光的，接著被轉(zhuǎn)換至電的(對(duì)于交換器)，接著被轉(zhuǎn)換至光的(離開(kāi)交換器)，且最終被轉(zhuǎn)換回電的(在目的地集群處)，而本文中所描述的例示性實(shí)施例的光學(xué)交換器僅需要一個(gè)Tx及一個(gè)Rx，這是因?yàn)樵摻粨Q器可經(jīng)由鏡使光學(xué)信號(hào)直接偏轉(zhuǎn)。大基數(shù)的電交換器必需由較小基數(shù)的構(gòu)建區(qū)塊組成，這意味著這些交換器傾向于為大型的且耗電多的(power-hungry)。光學(xué)電路交換器可具有大得多的單一交換器基數(shù)，且其保證具有顯著較小的尺寸及較低的電力消耗。在例示性實(shí)施例中，形成一集群的緊密耦接的處理器群組使用OCS網(wǎng)絡(luò)及光學(xué)收發(fā)器來(lái)互連至SPS內(nèi)的其它這種集群。該OCS網(wǎng)絡(luò)允許靈活的點(diǎn)對(duì)點(diǎn)連接，其可在毫秒級(jí) 時(shí)間標(biāo)度上改變。由于處理器的未來(lái)帶寬將增加，因此OCS架構(gòu)的使用可利用相同交換網(wǎng) 絡(luò)來(lái)支持未來(lái)更高帶寬需求及協(xié)議。OCS網(wǎng)絡(luò)無(wú)需如同經(jīng)由分組交換網(wǎng)絡(luò)進(jìn)行路由般極迅速地改變電路連接。對(duì)電路連接的調(diào)整僅需要在調(diào)整工作地點(diǎn)以使節(jié)點(diǎn)間的工作達(dá)成負(fù)載平衡時(shí)進(jìn)行。由SPS執(zhí)行的計(jì)算的性質(zhì)是使得通信模式及其持續(xù)時(shí)間在相當(dāng)長(zhǎng)的時(shí)間(例如，數(shù)分鐘或數(shù)小時(shí))內(nèi)為穩(wěn)定的，以足以分?jǐn)?amortize)OCS的相對(duì)較高的交換時(shí)間(數(shù) 毫秒)。由于為使在不同處理器內(nèi)進(jìn)行的計(jì)算達(dá)成負(fù)載平衡而對(duì)工作安排進(jìn)行的調(diào)整為非頻繁發(fā)生的操作(由于其自身的高計(jì)算成本及復(fù)雜性)，因此，該例示性流處理架構(gòu)在總性能上沒(méi)有明顯缺陷的情況下，在SPS需求的性質(zhì)與OCS互連技術(shù)的特定特征之間進(jìn)行唯一匹配。事實(shí)上，使用此網(wǎng)絡(luò)(一旦經(jīng)重新配置)可導(dǎo)致更好的通信延時(shí)，這是因?yàn)槠鋵?duì)協(xié)議及數(shù)據(jù)帶寬不具有隊(duì)列擁塞，不具有競(jìng)爭(zhēng)且具有透通性。現(xiàn)轉(zhuǎn)向圖2，現(xiàn)將在例示性實(shí)施例中描述具有例示性流處理架構(gòu)的流計(jì)算機(jī)系統(tǒng) 200。流計(jì)算機(jī)系統(tǒng)200由連接在一起以形成多處理器202的多個(gè)單個(gè)物理計(jì)算節(jié)點(diǎn)201構(gòu) 成。多個(gè)這些處理器202被分在一起以形成超級(jí)節(jié)點(diǎn)集群204(本文中也稱(chēng)為“超級(jí)節(jié)點(diǎn)” 及“集群”)。由已知快速互連裝置206在本地連接集群204內(nèi)部的處理器(及各自的物理計(jì)算節(jié)點(diǎn))，該已知快速互連裝置206可為在一集群內(nèi)的處理器202的物理計(jì)算節(jié)點(diǎn)之間具有某種拓?fù)涞闹苯舆B接型網(wǎng)絡(luò)；或交換器，經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器；或以上的組合。處理器202的每一集群204共享多個(gè)光學(xué)外部鏈路208。形成這些外部鏈路以用于優(yōu)化極高帶寬下的點(diǎn)對(duì)點(diǎn)連接。該優(yōu)化可在所使用的物理實(shí)施中、在被選擇來(lái)促進(jìn)這種高帶寬的協(xié)議中、在低延時(shí)集群對(duì)集群鏈路中進(jìn)行，且具有支持對(duì)一個(gè)物理鏈路或多個(gè)物理鏈路內(nèi)的多個(gè)流的聚集以使其看起來(lái)像由少數(shù)物理鏈路構(gòu)成的一條高帶寬物理鏈路的能力。由于這些外部鏈路經(jīng)由不會(huì)知曉該鏈路的協(xié)議、數(shù)據(jù)或內(nèi)容的全光學(xué)交換器而進(jìn)行電路交換，因此這些鏈路應(yīng)使用極輕量級(jí)通信協(xié)議。此外，這些外部鏈路的物理性質(zhì)可能需要在WDM(波分多路復(fù)用器)中使用多種光學(xué)波長(zhǎng)，所有這些光學(xué)波長(zhǎng) 被耦接到一條光纖或一條外部鏈路中，但在兩端可被分離開(kāi)。基于鏡的MEMS OCS將在光學(xué) 域(optics domain)中使這些外部鏈路內(nèi)的光束偏轉(zhuǎn)，而不管其波長(zhǎng)數(shù)目、協(xié)議及傳送信號(hào) 速度。這些外部鏈路為一集群內(nèi)的所有計(jì)算節(jié)點(diǎn)所共有，以使得集群204中的任何物理計(jì) 算節(jié)點(diǎn)201可直接或通過(guò)傳遞經(jīng)過(guò)在本地互連的集群構(gòu)件206而在這些外部鏈路208中的一個(gè)或全部上傳遞信息。在一個(gè)例示性實(shí)施例中，使用電路交換式交換器210。電路交換式交換器210無(wú)需頻繁交換，且因此構(gòu)建起來(lái)簡(jiǎn)單得多，且可使用不同技術(shù)(例如，全光學(xué)、基于MEMS鏡)以在多個(gè)集群204之間動(dòng)態(tài)地連接。這些集群204之間的任何給定時(shí)間上的特定連接是基于給定流計(jì)算圖形而被優(yōu)化的，由物理計(jì)算節(jié)點(diǎn)201及其所連接的集群204 執(zhí)行該給定流計(jì)算圖形的計(jì)算。這些類(lèi)型的外部鏈路208及動(dòng)態(tài)交換使得能夠得到在需要時(shí)動(dòng)態(tài)改變的極高吞吐量(高帶寬)連接性。由于多核心處理芯片需要極高帶寬網(wǎng)絡(luò)以將這些芯片互連至其它這種物理處理節(jié)點(diǎn)或存儲(chǔ)器子系統(tǒng)，因此例示性流處理架構(gòu)在提供具體在功能上由流處理計(jì)算圖形及其相對(duì)固定的性質(zhì)使能的這種機(jī)制方面起到重要的作用。這提供更有效的路由，由于分組無(wú)需被重新檢查且被逐個(gè)分組地路由。電路交換器210的構(gòu)造可針對(duì)這種功能且利用適當(dāng)技術(shù)(例如，全光學(xué)電路交換)而被優(yōu)化，可以高效地以極低電力及成本有效地操縱大量信息(流)。注意圖2中所示的圖僅描繪該系統(tǒng)中的主數(shù)據(jù)管道也很重要。應(yīng)理解，提供該系統(tǒng)中的所有集群/計(jì)算節(jié)點(diǎn)之間的完整連接性的另一較慢網(wǎng)絡(luò)(未示出)也被提供用于處置較不忙碌的連接，以及用于控制及其它較低帶寬通信。因此，分組交換網(wǎng)絡(luò)，例如，可用以傳送被確定傳輸最小數(shù)據(jù)的那些數(shù)據(jù)流(例如，104)。所述確定可通過(guò)指定閾值函數(shù)(例如，在預(yù)定時(shí)間段內(nèi)傳遞的數(shù)據(jù)的量化數(shù)目，或特定計(jì)算的優(yōu)先級(jí)函數(shù)或其它這種系統(tǒng)及操作相關(guān)參數(shù))來(lái)進(jìn)行，一旦達(dá)到該閾值，便經(jīng)由基于電路交換的網(wǎng)絡(luò)來(lái)路由流。因此，流的路由可在全部被分配以傳遞通過(guò)分組交換網(wǎng)絡(luò)時(shí)開(kāi)始，而隨著計(jì)算進(jìn)行且更多帶寬在流內(nèi)傳送，將重新定向這種路由以傳遞通過(guò)形成電路交換網(wǎng)絡(luò)的外部鏈路?，F(xiàn)轉(zhuǎn)向圖3，現(xiàn)將在例示性實(shí)施例中描述一流程圖，該流程圖描述用于實(shí)現(xiàn)流處理架構(gòu)的處理過(guò)程。在圖3的流程圖中，步驟302至306涉及創(chuàng)建例示性流計(jì)算機(jī)處理系統(tǒng)。步驟308涉及產(chǎn)生例示性流計(jì)算圖形，步驟310至316涉及將該流計(jì)算圖形映射到該流計(jì) 算機(jī)處理系統(tǒng)，且步驟318涉及對(duì)于該流計(jì)算機(jī)處理系統(tǒng)執(zhí)行該流計(jì)算圖形?，F(xiàn)將描述流計(jì)算機(jī)處理系統(tǒng)的創(chuàng)建。在步驟302處，形成處理器(例如，圖2的處理器20 的超級(jí)節(jié)點(diǎn)集群。在步驟304處，經(jīng)由本地已知的互連裝置(例如，圖2的網(wǎng)絡(luò) 206)以通信方式耦接該超級(jí)節(jié)點(diǎn)集群中的處理器中的每一個(gè)。該本地已知的互連裝置可使用例如直接連接、經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器、交換器或其組合來(lái)實(shí)現(xiàn)。在步驟306處，該超級(jí)節(jié)點(diǎn)集群(例如，圖2的集群204)經(jīng)由一個(gè)或多個(gè)光學(xué)外部鏈路(例如，鏈路208)以通信方式耦接到一個(gè)或多個(gè)光學(xué)電路交換器(例如，圖2的交換器210)。該光學(xué)電路交換器經(jīng)由從包括其它物理計(jì)算節(jié)點(diǎn)的處理器的其它超級(jí)節(jié)點(diǎn)集群至光學(xué)電路交換器的光學(xué)外部鏈路以通信方式耦接到其它超級(jí)節(jié)點(diǎn)集群。如上文所指示，在步驟308處針對(duì)在步驟302至306中創(chuàng)建的流計(jì)算系統(tǒng)而產(chǎn)生流計(jì)算圖形。該流計(jì)算圖形包括內(nèi)核及數(shù)據(jù)流。內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的數(shù)據(jù)流中的一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元。圖4示出具有二元樹(shù)拓?fù)涞牧饔?jì)算圖形400。內(nèi)核 402將數(shù)據(jù)流404發(fā)送至其它內(nèi)核。這些內(nèi)核402被分組成多個(gè)超級(jí)節(jié)點(diǎn)，諸如具有特定期望性質(zhì)的超級(jí)節(jié)點(diǎn)410A及410B。如上文所指示，該流計(jì)算圖形被映射到該流計(jì)算機(jī)處理系統(tǒng)，如現(xiàn)將描述的那樣。現(xiàn)在轉(zhuǎn)向圖5A及圖5B，流計(jì)算圖形(例如，流計(jì)算圖形500B)的內(nèi)核及數(shù)據(jù)流被映射到可重新配置的電路交換連接的集群(例如，流計(jì)算機(jī)系統(tǒng)500A的集群505A)上。在步驟310 處，將內(nèi)核分配給超級(jí)節(jié)點(diǎn)集群且分配給超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算節(jié)點(diǎn)。如圖5B中所示，已分配諸如內(nèi)核502B的內(nèi)核給圖5A的系統(tǒng)500A上的物理計(jì)算節(jié)點(diǎn)(例如，節(jié)點(diǎn)503A)。圖5B中所示的形成超級(jí)節(jié)點(diǎn)(例如，超級(jí)節(jié)點(diǎn)510B及512B)且與數(shù)據(jù)流(被示為流504B)連接的節(jié)點(diǎn)的分組已被分別映射到圖5A中所示的結(jié)構(gòu)(參看連接501A)上。在步驟312處，當(dāng)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將內(nèi) 核之間的數(shù)據(jù)流流量分配給本地已知的互連裝置。在步驟314處，當(dāng)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將內(nèi) 核之間的數(shù)據(jù)流流量分配給光學(xué)外部鏈路。在步驟316處，光學(xué)電路交換器被配置以經(jīng)由外部鏈路而在對(duì)應(yīng)于所述分配的超級(jí)節(jié)點(diǎn)集群之間提供連接性(如圖5A及圖5B中所示，已重新配置電路交換器520以提供這些被映射的超級(jí)節(jié)點(diǎn)(例如，超級(jí)節(jié)點(diǎn)510B、512B、514B、516B、518B、520B)之間的所需連接性)。集群之間的連接的建立(即，每一集群將使用外部鏈路經(jīng)由OCS交換器連接至特定其它集群)是基于將內(nèi)核映射到物理處理節(jié)點(diǎn)上的優(yōu)化處理過(guò)程。在該處理過(guò)程的結(jié) 尾，正在計(jì)算作為整體在集群之間進(jìn)行的保留通信的總量(基于原始圖形中所有流邊的總和)，從而得出每一集群與所有其它集群之間的通信所需的總帶寬。接著，經(jīng)由OCS交換器配置適當(dāng)?shù)耐獠挎溌芬灾С秩魏渭号c所有其它集群之間的這種帶寬。經(jīng)由分組交換網(wǎng)絡(luò) 來(lái)路由較低帶寬閾值連接(即，并不值得使用高帶寬外部鏈路經(jīng)由OCS建立電路的那些連接，這是因?yàn)闃O少預(yù)期數(shù)據(jù)傳遞通過(guò)那些連接)。在步驟318處，根據(jù)流計(jì)算圖形來(lái)執(zhí)行對(duì)流計(jì)算機(jī)處理系統(tǒng)的操作，以使得優(yōu)化集群之間在給定時(shí)間的特定連接。因此，以上處理過(guò)程導(dǎo)致滿(mǎn)足流計(jì)算圖形的拓?fù)?圖4中示為二元樹(shù)，作為可能的這種圖形的例子)且動(dòng)態(tài)地改變電路交換器520以在集群505A間匹配所需的通信模式，同時(shí)個(gè)別數(shù)據(jù)流的本地分離由集群互連506A在本地進(jìn)行(如圖5A及圖5B中所示)。如由上文所描述的例示性實(shí)施例可知，光學(xué)通信和流處理范例的組合解決了上述編程及帶寬挑戰(zhàn)。光學(xué)通信鏈路提供超高吞吐量、最小通信延時(shí)，及獨(dú)立于容量而保持的低操作功率。與高基數(shù)的MEMS (微機(jī)電系統(tǒng))交換器組合的、可利用光學(xué)鏈路的容量、透明性及基本上低功耗的光學(xué)電路交換互連網(wǎng)絡(luò)可遞送在全電互連的情況下完全不可能的帶寬/ 瓦特(bandwidth-per-watt)。另外，超高帶寬OCS互連網(wǎng)絡(luò)為用于SPS的最佳解決方案， SPS的計(jì)算性能直接取決于最大化當(dāng)前處理的流的I/O數(shù)據(jù)帶寬及最小化接下來(lái)將處理的流的大DMA傳送的延時(shí)。另外，SPS通常在使用存活時(shí)間相對(duì)長(zhǎng)的處理器之間建立連接，因此不擔(dān)心OCS的較長(zhǎng)交換時(shí)間。光學(xué)通信進(jìn)一步解決了 SPS的編程能力挑戰(zhàn)，因?yàn)楣鈱W(xué)通信最小化從任何給定處理節(jié)點(diǎn)對(duì)給定存儲(chǔ)器中的大數(shù)據(jù)集合的存取時(shí)間，而不管其相對(duì)位置。減少數(shù)據(jù)存取的時(shí) 間變化有助于簡(jiǎn)化流處理系統(tǒng)的建模。隨之，簡(jiǎn)化的抽象系統(tǒng)級(jí)模型促進(jìn)對(duì)獲得大規(guī)模流應(yīng)用到SPS架構(gòu)上的平衡部署問(wèn)題的解決以最大化其持續(xù)的處理吞吐量。這種模型可進(jìn)一步使能自動(dòng)優(yōu)化方法的開(kāi)發(fā)，這些方法用于在編譯時(shí)間數(shù)據(jù)傳送及數(shù)據(jù)處理在整個(gè)SPS上的靜態(tài)安排(static orchestration)與SPS操作期間通信及計(jì)算的動(dòng)態(tài)再平衡。本文中所使用的術(shù)語(yǔ)僅出于描述特定實(shí)施例的目的且并非意欲限制本發(fā)明。除非上下文清楚地指示其它情形，否則如本文中所使用，單數(shù)形式“一”及“該”意欲也包括復(fù)數(shù) 形式。應(yīng)進(jìn)一步理解，當(dāng)在本說(shuō)明書(shū)中使用時(shí)，術(shù)語(yǔ)“包括”指示所述特征、整數(shù)、步驟、操作、單元和/或組件的存在，但并不排除存在或添加一個(gè)或多個(gè)其它特征、整數(shù)、步驟、操作、單元組件和/或其群組。以下權(quán)利要求中的對(duì)應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置(means)或步驟的等同旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能的結(jié)構(gòu)、材料或操作。所給出的對(duì)本發(fā)明的描述其目的在于示意和描述，并非是窮盡性的，也并非是要把本發(fā)明限定到所表述的形式。對(duì)于所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不偏離本發(fā)明范圍和精神的情況下，顯然可以作出許多修改和變型。對(duì)實(shí)施例的選擇和說(shuō)明是為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用，使所屬技術(shù)領(lǐng)域的普通技術(shù)人員能夠明了，本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實(shí)施方式。本文中所描繪的流程圖僅為一個(gè)例子。在不脫離本發(fā)明的精神的情況下，可存在對(duì)本文中所描述的圖或步驟(或操作)的許多變化。舉例而言，可按不同次序執(zhí)行這些步驟，或者可添加、刪除或修改步驟。將所有這些變化看作為所要求的本發(fā)明的一部分。雖然已經(jīng)描述了本發(fā)明的優(yōu)選實(shí)施例，但所屬技術(shù)領(lǐng)域的普通技術(shù)人員應(yīng)理解，在現(xiàn)在及將來(lái)，可進(jìn)行在以下權(quán)利要求范圍內(nèi)的各種改良及增強(qiáng)。這些權(quán)利要求應(yīng)被解釋為保持對(duì)最初描述的本發(fā)明的適當(dāng)保護(hù)。
權(quán)利要求
1.一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法，包括創(chuàng)建流計(jì)算機(jī)處理系統(tǒng)，包括形成處理器的超級(jí)節(jié)點(diǎn)集群，所述處理器中的每一個(gè)包括所述超級(jí)節(jié)點(diǎn)集群內(nèi)的至少一個(gè)物理計(jì)算節(jié)點(diǎn)；經(jīng)由本地互連裝置以通信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器；和經(jīng)由一個(gè)或多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié)點(diǎn)集群以通信方式耦接到至少一個(gè)光學(xué) 電路交換器，所述光學(xué)電路交換器經(jīng)由來(lái)自處理器的至少一個(gè)其它超級(jí)節(jié)點(diǎn)集群的一個(gè)或多個(gè)光學(xué)外部鏈路以通信方式耦接到所述其它超級(jí)節(jié)點(diǎn)集群，所述至少一個(gè)其它超級(jí)節(jié)點(diǎn) 集群分別包括至少一個(gè)其它物理計(jì)算節(jié)點(diǎn)；產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形，所述內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的所述數(shù)據(jù)流中的一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元；將所述流計(jì)算圖形映射到所述流計(jì)算機(jī)處理系統(tǒng)，包括將所述內(nèi)核分配給所述超級(jí)節(jié)點(diǎn)集群及所述超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算節(jié)占. 當(dāng)各個(gè)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述本地互連裝置；當(dāng)各個(gè)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述光學(xué)外部鏈路；和配置所述光學(xué)電路交換器以經(jīng)由所述光學(xué)外部鏈路而在對(duì)應(yīng)于所述分配的所述超級(jí) 節(jié)點(diǎn)集群之間提供連接性；和根據(jù)所述流計(jì)算圖形對(duì)所述流計(jì)算機(jī)處理系統(tǒng)執(zhí)行操作。
2.如權(quán)利要求1所述的方法，其中配置所述光學(xué)電路交換器包括動(dòng)態(tài)地交換所述光學(xué)電路交換器的連接性，以反映對(duì)所述流計(jì)算圖形所做的改變。
3.如權(quán)利要求2所述的方法，其中對(duì)所述流計(jì)算圖形的改變反映負(fù)載平衡活動(dòng)。
4.如權(quán)利要求1所述的方法，其中超級(jí)節(jié)點(diǎn)集群內(nèi)的個(gè)別數(shù)據(jù)流是由所述超級(jí)節(jié)點(diǎn)集群的相應(yīng)本地互連裝置管理的。
5.如權(quán)利要求4所述的方法，其中所述本地互連裝置由以下各項(xiàng)中的至少一個(gè)實(shí)現(xiàn) 直接連接；經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器；和交換器。
6.如權(quán)利要求1所述的方法，其中所述物理計(jì)算節(jié)點(diǎn)是單一處理器。
7.如權(quán)利要求1所述的方法，其中所述物理計(jì)算節(jié)點(diǎn)是多處理器。
8.如權(quán)利要求1所述的方法，其中所述流計(jì)算圖形是使用二元樹(shù)拓?fù)洚a(chǎn)生的。
9.如權(quán)利要求1所述的方法，進(jìn)一步包括使用分組交換網(wǎng)絡(luò)傳送內(nèi)核之間的所述數(shù)據(jù)流中被確定為經(jīng)受最少數(shù)據(jù)傳遞的數(shù)據(jù) 流，所述確定是使用閾值函數(shù)做出的。
10.一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的系統(tǒng)，包括流計(jì)算機(jī)處理系統(tǒng)，所述流計(jì)算機(jī)處理系統(tǒng)通過(guò)以下而被創(chuàng)建形成處理器的超級(jí)節(jié)點(diǎn)集群，所述處理器中的每一個(gè)包括所述超級(jí)節(jié)點(diǎn)集群內(nèi)的至少一個(gè)物理計(jì)算節(jié)點(diǎn)；經(jīng)由本地互連裝置以通信方式耦接所述超級(jí)節(jié)點(diǎn)集群中的每一個(gè)處理器；和經(jīng)由一個(gè)或多個(gè)光學(xué)外部鏈路將所述超級(jí)節(jié)點(diǎn)集群以通信方式耦接到至少一個(gè)光學(xué) 電路交換器，所述光學(xué)電路交換器經(jīng)由來(lái)自處理器的至少一個(gè)其它超級(jí)節(jié)點(diǎn)集群的一個(gè)或多個(gè)光學(xué)外部鏈路以通信方式耦接到所述其它超級(jí)節(jié)點(diǎn)集群，所述至少一個(gè)其它超級(jí)節(jié)點(diǎn) 集群分別包括至少一個(gè)其它物理計(jì)算節(jié)點(diǎn)；包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形，所述內(nèi)核表示對(duì)輸入到相應(yīng)內(nèi)核的所述數(shù)據(jù)流中的一個(gè)或多個(gè)執(zhí)行計(jì)算的軟件代碼單元；其中將所述流計(jì)算圖形映射到所述流計(jì)算機(jī)處理系統(tǒng)，所述映射包括將所述內(nèi)核分配給所述超級(jí)節(jié)點(diǎn)集群及所述超級(jí)節(jié)點(diǎn)集群中每一個(gè)各自的物理計(jì)算節(jié)占.I— /、、、當(dāng)各個(gè)數(shù)據(jù)流處于同一超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述本地互連裝置；當(dāng)各個(gè)數(shù)據(jù)流處于不同超級(jí)節(jié)點(diǎn)集群中的物理計(jì)算節(jié)點(diǎn)之間時(shí)，將所述內(nèi)核之間的數(shù) 據(jù)流流量分配給所述光學(xué)外部鏈路；和配置所述光學(xué)電路交換器以經(jīng)由所述光學(xué)外部鏈路而在對(duì)應(yīng)于所述分配的所述超級(jí) 節(jié)點(diǎn)集群之間提供連接性；其中根據(jù)所述流計(jì)算圖形對(duì)所述流計(jì)算機(jī)處理系統(tǒng)執(zhí)行操作。
11.如權(quán)利要求10所述的系統(tǒng)，其中配置所述光學(xué)電路交換器包括動(dòng)態(tài)地交換所述光學(xué)電路交換器的連接性，以反映對(duì)所述流計(jì)算圖形所做的改變。
12.如權(quán)利要求11所述的系統(tǒng)，其中對(duì)所述流計(jì)算圖形的改變反映負(fù)載平衡活動(dòng)。
13.如權(quán)利要求10所述的系統(tǒng)，其中超級(jí)節(jié)點(diǎn)集群內(nèi)的個(gè)別數(shù)據(jù)流是由所述超級(jí)節(jié)點(diǎn) 集群的相應(yīng)本地互連裝置管理的。
14.如權(quán)利要求13所述的系統(tǒng)，其中所述本地互連裝置由以下各項(xiàng)中的至少一個(gè)實(shí)現(xiàn)直接連接；經(jīng)由高速緩沖一致對(duì)稱(chēng)多處理器(SMP)構(gòu)件而通過(guò)存儲(chǔ)器；和交換器。
15.如權(quán)利要求10所述的系統(tǒng)，其中所述物理計(jì)算節(jié)點(diǎn)是單一處理器。
16.如權(quán)利要求10所述的系統(tǒng)，其中所述物理計(jì)算節(jié)點(diǎn)是多處理器。
17.如權(quán)利要求10所述的系統(tǒng)，其中所述流計(jì)算圖形是使用二元樹(shù)拓?fù)洚a(chǎn)生的。
18.如權(quán)利要求10所述的系統(tǒng)，進(jìn)一步包括分組交換網(wǎng)絡(luò)，所述分組交換網(wǎng)絡(luò)傳送內(nèi)核之間的所述數(shù)據(jù)流中被確定為經(jīng)受最少數(shù) 據(jù)傳遞的數(shù)據(jù)流，所述確定是使用閾值函數(shù)做出的。
全文摘要
本公開(kāi)涉及一種用于實(shí)施流處理計(jì)算機(jī)架構(gòu)的方法，所述方法包括通過(guò)以下操作來(lái)創(chuàng)建流計(jì)算機(jī)處理(SCP)系統(tǒng)形成處理器的超級(jí)節(jié)點(diǎn)集群，所述處理器表示物理計(jì)算節(jié)點(diǎn)(“節(jié)點(diǎn)”)，經(jīng)由本地互連裝置(“互連”)以通信方式耦接處理器，和經(jīng)由光學(xué)外部鏈路(“鏈路”)將集群以通信方式耦接到光學(xué)電路交換器(OCS)。OCS經(jīng)由鏈路以通信方式耦接到處理器的另一集群。所述方法還包括產(chǎn)生包括內(nèi)核及數(shù)據(jù)流的流計(jì)算圖形，并將圖形映射到SCP系統(tǒng)，其包括將內(nèi)核分配給集群及各自的節(jié)點(diǎn)，當(dāng)數(shù)據(jù)流處于同一集群中的節(jié)點(diǎn)之間時(shí)，將內(nèi)核之間的數(shù)據(jù)流流量分配給互連，以及當(dāng)數(shù)據(jù)流處于不同集群中的節(jié)點(diǎn)之間時(shí)，將內(nèi)核之間的流量分配給鏈路。所述方法還包括配置OCS以在已映射集群之間提供連接性。
文檔編號(hào)G06F15/173GK102138138SQ200980132236
公開(kāi)日2011年7月27日申請(qǐng)日期2009年8月13日優(yōu)先權(quán)日2008年8月18日
發(fā)明者E·申菲爾德, T·B·史密斯三世申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｅ·申菲爾德
技術(shù)所有人：國(guó)際商業(yè)機(jī)器公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

計(jì)算機(jī)系統(tǒng)架構(gòu)相關(guān)技術(shù)

計(jì)算機(jī)架構(gòu)相關(guān)技術(shù)

計(jì)算機(jī)網(wǎng)絡(luò)架構(gòu)相關(guān)技術(shù)

計(jì)算機(jī)七層架構(gòu)相關(guān)技術(shù)

計(jì)算機(jī)架構(gòu)師相關(guān)技術(shù)

計(jì)算機(jī)硬件架構(gòu)相關(guān)技術(shù)

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

用于實(shí)現(xiàn)流處理計(jì)算機(jī)架構(gòu)的方法及系統(tǒng)的制作方法