午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于差異識(shí)別的并行系統(tǒng)局部遷移容錯(cuò)方法

文檔序號(hào):9708161閱讀:279來(lái)源:國(guó)知局
一種基于差異識(shí)別的并行系統(tǒng)局部遷移容錯(cuò)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及處理器技術(shù)領(lǐng)域,具體涉及一種基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法。
【背景技術(shù)】
[0002]在并行系統(tǒng)中,大規(guī)模作業(yè)的容錯(cuò)處理一直是影響系統(tǒng)可用性、好用性和資源利用率關(guān)鍵性問(wèn)題。
[0003]具體地說(shuō),在并行系統(tǒng)中,由于節(jié)點(diǎn)規(guī)模巨大,所以頻發(fā)的節(jié)點(diǎn)故障導(dǎo)致作業(yè)的連續(xù)運(yùn)行會(huì)經(jīng)常性的被打斷;而頻繁的容錯(cuò)不但影響作業(yè)的持續(xù)運(yùn)行,降低了系統(tǒng)資源的利用率,也極大的影響用戶的使用體驗(yàn)。
[0004]基于故障預(yù)警實(shí)現(xiàn)主動(dòng)容錯(cuò)的作業(yè)迀移是解決該問(wèn)題的一個(gè)有效手段。在這種方案中,一般在發(fā)現(xiàn)某些節(jié)點(diǎn)發(fā)生故障預(yù)警或健康度降低時(shí),將該節(jié)點(diǎn)上的作業(yè)任務(wù)迀移到其他健康資源,以避免節(jié)點(diǎn)故障影響作業(yè)的持續(xù)運(yùn)行。
[0005]但是,在現(xiàn)有技術(shù)的這種方案中,主要是針對(duì)預(yù)警節(jié)點(diǎn)進(jìn)行整機(jī)環(huán)境迀移或者對(duì)預(yù)警節(jié)點(diǎn)上的作業(yè)用戶進(jìn)程進(jìn)行整體迀移,兩種情況都需要迀移的環(huán)境較大,容錯(cuò)時(shí)間長(zhǎng)、開銷大。

【發(fā)明內(nèi)容】

[0006]本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)中存在上述缺陷,主要針對(duì)常規(guī)作業(yè)迀移開銷較大的問(wèn)題,實(shí)現(xiàn)了一種基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,能夠有效的降低節(jié)點(diǎn)作業(yè)任務(wù)迀移時(shí)的開銷,有效減少迀移容錯(cuò)時(shí)間,降低容錯(cuò)風(fēng)險(xiǎn),提高資源利用率。
[0007]根據(jù)本發(fā)明,提供了一種基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,包括:
[0008]第一步驟:系統(tǒng)根據(jù)節(jié)點(diǎn)的工作狀態(tài)啟動(dòng)并行作業(yè)迀移容錯(cuò)并申請(qǐng)新資源用于作業(yè)迀移;
[0009]第二步驟:作業(yè)管理進(jìn)行迀移前準(zhǔn)備;
[0010]第三步驟:并行文件系統(tǒng)進(jìn)行飛行數(shù)據(jù)驅(qū)趕及狀態(tài)保留,而且并行語(yǔ)言庫(kù)進(jìn)行消息驅(qū)趕及任務(wù)同步;
[0011]第四步驟:并行語(yǔ)言庫(kù)提取出用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息,將關(guān)鍵信息通知到系統(tǒng)核心,并通知作業(yè)管理作業(yè)任務(wù)已經(jīng)做好迀移準(zhǔn)備;
[0012]第五步驟:作業(yè)管理調(diào)用系統(tǒng)核心接口進(jìn)行作業(yè)任務(wù)迀移,其中系統(tǒng)核心僅僅將系統(tǒng)核心狀態(tài)與作業(yè)任務(wù)進(jìn)程信息傳送到目標(biāo)節(jié)點(diǎn),并恢復(fù)包含關(guān)鍵信息的作業(yè)任務(wù)進(jìn)程;
[0013]第六步驟:在目標(biāo)節(jié)點(diǎn),并行文件系統(tǒng)根據(jù)迀移前記錄的描述符,再次打開對(duì)應(yīng)的文件,恢復(fù)文件環(huán)境;
[0014]第七步驟:在目標(biāo)節(jié)點(diǎn),并行語(yǔ)言根據(jù)系統(tǒng)核心恢復(fù)的關(guān)鍵信息,恢復(fù)作業(yè)運(yùn)行環(huán)境;
[0015]第八步驟:作業(yè)管理根據(jù)新的作業(yè)運(yùn)行環(huán)境重構(gòu)作業(yè),恢復(fù)作業(yè)的繼續(xù)運(yùn)行。
[0016]優(yōu)選地,在第一步驟中,系統(tǒng)判斷在節(jié)點(diǎn)發(fā)生故障預(yù)警或健康度減低時(shí),啟動(dòng)并行作業(yè)迀移容錯(cuò)并申請(qǐng)新的資源用于作業(yè)迀移。
[0017]優(yōu)選地,在第二步驟中,作業(yè)管理以信號(hào)方式將并行文件系統(tǒng)與并行語(yǔ)言通知迀移源方。
[0018]優(yōu)選地,在第四步驟中,并行語(yǔ)言庫(kù)根據(jù)用戶課題類型提取出用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息。
【附圖說(shuō)明】
[0019]結(jié)合附圖,并通過(guò)參考下面的詳細(xì)描述,將會(huì)更容易地對(duì)本發(fā)明有更完整的理解并且更容易地理解其伴隨的優(yōu)點(diǎn)和特征,其中:
[0020]圖1示意性地示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法的流程圖。
[0021]需要說(shuō)明的是,附圖用于說(shuō)明本發(fā)明,而非限制本發(fā)明。注意,表示結(jié)構(gòu)的附圖可能并非按比例繪制。并且,附圖中,相同或者類似的元件標(biāo)有相同或者類似的標(biāo)號(hào)。
【具體實(shí)施方式】
[0022]為了使本發(fā)明的內(nèi)容更加清楚和易懂,下面結(jié)合具體實(shí)施例和附圖對(duì)本發(fā)明的內(nèi)容進(jìn)行詳細(xì)描述。
[0023]在根據(jù)本發(fā)明的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法中,結(jié)合并行作業(yè)運(yùn)行狀態(tài),有效區(qū)分主動(dòng)容錯(cuò)時(shí)需要迀移的有效信息與其它無(wú)效信息,只對(duì)有效信息進(jìn)行迀移與恢復(fù),實(shí)現(xiàn)低開銷的容錯(cuò)。
[0024]下面將結(jié)合附圖來(lái)描述本發(fā)明的具體優(yōu)選實(shí)施例。
[0025]圖1示意性地示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法的流程圖。
[0026]如圖1所示,根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法包括依次執(zhí)行的下述步驟:
[0027]第一步驟S1:系統(tǒng)根據(jù)節(jié)點(diǎn)的工作狀態(tài)(系統(tǒng)在判斷節(jié)點(diǎn)發(fā)生故障預(yù)警或健康度減低時(shí))啟動(dòng)并行作業(yè)迀移容錯(cuò)并申請(qǐng)新資源用于作業(yè)迀移;
[0028]第二步驟S2:作業(yè)管理進(jìn)行迀移前準(zhǔn)備,例如,以信號(hào)方式通知迀移源方的并行文件系統(tǒng)與并行語(yǔ)言;其中,迀移源方是第一步驟的發(fā)生故障預(yù)警或健康度減低的節(jié)點(diǎn),也就是需要將作業(yè)任務(wù)迀出的節(jié)點(diǎn)。
[0029]第三步驟S3:并行文件系統(tǒng)進(jìn)行飛行數(shù)據(jù)驅(qū)趕及狀態(tài)保留,以達(dá)到數(shù)據(jù)穩(wěn)定態(tài)并減少迀移內(nèi)容;而且并行語(yǔ)言庫(kù)進(jìn)行消息驅(qū)趕及任務(wù)同步,確保達(dá)到消息穩(wěn)定狀態(tài);
[0030]第四步驟S4:并行語(yǔ)言庫(kù)(例如根據(jù)用戶課題類型),區(qū)分用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息與不需迀移的其他信息(也就是說(shuō),提取出用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息),將關(guān)鍵信息通知到系統(tǒng)核心,并通知作業(yè)管理作業(yè)任務(wù)已經(jīng)做好迀移準(zhǔn)備;
[0031]第五步驟S5:作業(yè)管理調(diào)用系統(tǒng)核心接口進(jìn)行作業(yè)任務(wù)迀移,其中系統(tǒng)核心僅僅將系統(tǒng)核心狀態(tài)與作業(yè)任務(wù)進(jìn)程信息傳送到目標(biāo)節(jié)點(diǎn),并恢復(fù)包含關(guān)鍵信息的作業(yè)任務(wù)進(jìn)程;
[0032]其中,對(duì)于包含了關(guān)鍵信息的作業(yè)任務(wù)進(jìn)程,舉例來(lái)說(shuō),用戶進(jìn)程使用了100M內(nèi)存,傳統(tǒng)實(shí)現(xiàn)中,進(jìn)程迀移時(shí),核心需要迀移和恢復(fù)所有用戶使用的100M內(nèi)存的內(nèi)容。本發(fā)明中,迀移前并行語(yǔ)言庫(kù)通知核心內(nèi)存中需要迀移的關(guān)鍵信息(比如10M),則進(jìn)程迀移時(shí),核心迀移和恢復(fù)用戶進(jìn)程時(shí),只需要迀移和恢復(fù)這10M關(guān)鍵信息就可以了,其余90M無(wú)用信息可以不用迀移和恢復(fù)。
[0033]具體地,例如,當(dāng)作業(yè)管理接收到作業(yè)任務(wù)已經(jīng)做好迀移準(zhǔn)備的通知時(shí)(也就是說(shuō),當(dāng)作業(yè)管理判斷作業(yè)任務(wù)已經(jīng)做好迀移準(zhǔn)備后),作業(yè)管理調(diào)用系統(tǒng)核心接口進(jìn)行作業(yè)任務(wù)迀移,其中系統(tǒng)核心根據(jù)第四步驟S4中并行語(yǔ)言庫(kù)通知的需要保留的關(guān)鍵信息(第四步驟S4中并行語(yǔ)言庫(kù)通知核心哪些關(guān)鍵信息需要迀移和恢復(fù)),只需將必要的系統(tǒng)核心狀態(tài)與作業(yè)任務(wù)進(jìn)程信息傳送到目標(biāo)節(jié)點(diǎn)并恢復(fù)作業(yè)任務(wù)進(jìn)程;
[0034]第六步驟S6:在目標(biāo)節(jié)點(diǎn)(S卩,申請(qǐng)到的新資源),并行文件系統(tǒng)根據(jù)迀移前記錄的描述符,再次打開對(duì)應(yīng)的文件,恢復(fù)文件環(huán)境;
[0035]第七步驟S7:在目標(biāo)節(jié)點(diǎn),并行語(yǔ)言根據(jù)系統(tǒng)核心恢復(fù)的關(guān)鍵信息,恢復(fù)作業(yè)運(yùn)行環(huán)境。
[0036]第八步驟S8:作業(yè)管理根據(jù)新作業(yè)運(yùn)行環(huán)境(S卩,在作業(yè)原完整運(yùn)行環(huán)境基礎(chǔ)上使用目標(biāo)節(jié)點(diǎn)替換源節(jié)點(diǎn)后的新作業(yè)運(yùn)行環(huán)境)重構(gòu)整道作業(yè),恢復(fù)作業(yè)的繼續(xù)運(yùn)行。
[0037]具體地,由于作業(yè)管理重構(gòu)作業(yè)運(yùn)行環(huán)境時(shí)需要作業(yè)使用的所有節(jié)點(diǎn)的參與(包括由于替換源節(jié)點(diǎn)而新加入的目標(biāo)節(jié)點(diǎn)和未變動(dòng)的節(jié)點(diǎn)),所以新的作業(yè)運(yùn)行環(huán)境包含迀移后的完整環(huán)境,不僅僅指目標(biāo)節(jié)點(diǎn)。即,新作業(yè)運(yùn)行環(huán)境包含替換源節(jié)點(diǎn)的目標(biāo)節(jié)點(diǎn)以及原作業(yè)運(yùn)行環(huán)境重下未變動(dòng)的節(jié)點(diǎn)。
[0038]由此,本發(fā)明實(shí)現(xiàn)了一種基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,能夠有效的降低節(jié)點(diǎn)作業(yè)任務(wù)迀移時(shí)的開銷,有效減少迀移容錯(cuò)時(shí)間,降低容錯(cuò)風(fēng)險(xiǎn),提高資源利用率。
[0039]為了使得技術(shù)人員能夠更好地理解本發(fā)明,下面對(duì)于本說(shuō)明書中使用的術(shù)語(yǔ),做出下述解釋:
[0040]并行作業(yè):一般指由MPI等并行語(yǔ)言編寫,運(yùn)行于并行計(jì)算機(jī)計(jì)算資源上的任務(wù)進(jìn)程集合,由作業(yè)管理系統(tǒng)啟動(dòng)和控制,通過(guò)進(jìn)程間協(xié)同完成同一問(wèn)題求解。
[0041]進(jìn)程迀移:進(jìn)程迀移就是將一個(gè)進(jìn)程從當(dāng)前位置移動(dòng)到指定節(jié)點(diǎn)的指定處理器上,繼續(xù)存取它的所有資源并繼續(xù)運(yùn)行。其主要工作就在于提取進(jìn)程狀態(tài),然后在目的節(jié)點(diǎn)根據(jù)進(jìn)程狀態(tài)再生該進(jìn)程。在并行計(jì)算中,進(jìn)程迀移是支持負(fù)載平衡和高容錯(cuò)性的一種非常有效的手段。
[0042]可以理解的是,雖然本發(fā)明已以較佳實(shí)施例披露如上,然而上述實(shí)施例并非用以限定本發(fā)明。對(duì)于任何熟悉本領(lǐng)域的技術(shù)人員而言,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的技術(shù)內(nèi)容對(duì)本發(fā)明技術(shù)方案作出許多可能的變動(dòng)和修飾,或修改為等同變化的等效實(shí)施例。因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所做的任何簡(jiǎn)單修改、等同變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護(hù)的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于包括: 第一步驟:系統(tǒng)根據(jù)節(jié)點(diǎn)的工作狀態(tài)啟動(dòng)并行作業(yè)迀移容錯(cuò)并申請(qǐng)新資源用于作業(yè)迀移; 第二步驟:作業(yè)管理進(jìn)行迀移前準(zhǔn)備; 第三步驟:并行文件系統(tǒng)進(jìn)行飛行數(shù)據(jù)驅(qū)趕及狀態(tài)保留,而且并行語(yǔ)言庫(kù)進(jìn)行消息驅(qū)趕及任務(wù)同步; 第四步驟:并行語(yǔ)言庫(kù)提取出用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息,將關(guān)鍵信息通知到系統(tǒng)核心,并通知作業(yè)管理作業(yè)任務(wù)已經(jīng)做好迀移準(zhǔn)備; 第五步驟:作業(yè)管理調(diào)用系統(tǒng)核心接口進(jìn)行作業(yè)任務(wù)迀移,其中系統(tǒng)核心僅僅將系統(tǒng)核心狀態(tài)與作業(yè)任務(wù)進(jìn)程信息傳送到目標(biāo)節(jié)點(diǎn),并恢復(fù)包含關(guān)鍵信息的作業(yè)任務(wù)進(jìn)程。2.根據(jù)權(quán)利要求1所述的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于還包括: 第六步驟:在目標(biāo)節(jié)點(diǎn),并行文件系統(tǒng)根據(jù)迀移前記錄的描述符,再次打開對(duì)應(yīng)的文件,恢復(fù)文件環(huán)境; 第七步驟:在目標(biāo)節(jié)點(diǎn),并行語(yǔ)言根據(jù)系統(tǒng)核心恢復(fù)的關(guān)鍵信息,恢復(fù)作業(yè)運(yùn)行環(huán)境。3.根據(jù)權(quán)利要求1或2所述的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于還包括: 第八步驟:作業(yè)管理根據(jù)新的作業(yè)運(yùn)行環(huán)境重構(gòu)作業(yè),恢復(fù)作業(yè)的繼續(xù)運(yùn)行。4.根據(jù)權(quán)利要求1或2所述的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于,在第一步驟中,系統(tǒng)判斷在節(jié)點(diǎn)發(fā)生故障預(yù)警或健康度減低時(shí),啟動(dòng)并行作業(yè)迀移容錯(cuò)并申請(qǐng)新的資源用于作業(yè)迀移。5.根據(jù)權(quán)利要求1或2所述的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于,在第二步驟中,作業(yè)管理以信號(hào)方式將并行文件系統(tǒng)與并行語(yǔ)言通知迀移源方。6.根據(jù)權(quán)利要求1或2所述的基于差異識(shí)別的并行系統(tǒng)局部迀移容錯(cuò)方法,其特征在于,在第四步驟中,并行語(yǔ)言庫(kù)根據(jù)用戶課題類型提取出用戶使用的內(nèi)存中需要迀移的關(guān)鍵信息。
【專利摘要】一種基于差異識(shí)別的并行系統(tǒng)局部遷移容錯(cuò)方法包括:系統(tǒng)啟動(dòng)并行作業(yè)遷移容錯(cuò)并申請(qǐng)新的資源用于作業(yè)遷移;作業(yè)管理進(jìn)行遷移前準(zhǔn)備;并行文件系統(tǒng)進(jìn)行飛行數(shù)據(jù)驅(qū)趕及狀態(tài)保留;并行語(yǔ)言庫(kù)進(jìn)行消息驅(qū)趕及任務(wù)同步;并行語(yǔ)言庫(kù)提取出需要遷移的關(guān)鍵信息,并通知到系統(tǒng)核心,并通知作業(yè)管理作業(yè)任務(wù)已經(jīng)做好遷移準(zhǔn)備;作業(yè)管理調(diào)用系統(tǒng)核心接口進(jìn)行作業(yè)任務(wù)遷移,系統(tǒng)核心僅僅將系統(tǒng)核心狀態(tài)與作業(yè)任務(wù)進(jìn)程信息傳送到目標(biāo)節(jié)點(diǎn),并恢復(fù)包含關(guān)鍵信息的作業(yè)任務(wù)進(jìn)程;在目標(biāo)節(jié)點(diǎn),并行文件系統(tǒng)根據(jù)遷移前記錄的描述符再次打開對(duì)應(yīng)的文件,恢復(fù)文件環(huán)境,并行語(yǔ)言根據(jù)系統(tǒng)核心恢復(fù)的關(guān)鍵信息,恢復(fù)作業(yè)運(yùn)行環(huán)境;作業(yè)管理重構(gòu)作業(yè),恢復(fù)作業(yè)的繼續(xù)運(yùn)行。
【IPC分類】G06F11/20, G06F9/50
【公開號(hào)】CN105468457
【申請(qǐng)?zhí)枴緾N201510830319
【發(fā)明人】宋長(zhǎng)明, 劉沙, 李偉東, 張宏宇, 王禮生
【申請(qǐng)人】無(wú)錫江南計(jì)算技術(shù)研究所
【公開日】2016年4月6日
【申請(qǐng)日】2015年11月24日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1