一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法與流程

文檔序號(hào)：39525838發(fā)布日期：2024-09-27 17:01閱讀：38來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法與流程

本發(fā)明涉及天然氣輸送，具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法。

背景技術(shù)：

1、目前，針對(duì)于天然氣輸送主要有兩種方式，其一為通過(guò)壓縮的方式將天然氣轉(zhuǎn)化為液化天然氣，通過(guò)輪渡進(jìn)行長(zhǎng)距離輸送；其二為建立天然氣管網(wǎng)，并使天然氣從天然氣井端，經(jīng)由油氣田礦場(chǎng)集輸管網(wǎng)凈化和增壓輸氣干線(xiàn)，將天然氣調(diào)度到城鎮(zhèn)或工業(yè)區(qū)等配氣管用戶(hù)端。針對(duì)于其二所述的輸送方式，需要構(gòu)建覆蓋空間足夠大的天然氣管網(wǎng)，再根據(jù)配氣管用戶(hù)端的實(shí)際需求進(jìn)行天然氣調(diào)度。

2、其中，由于配氣管用戶(hù)端的天然氣需求量具有動(dòng)態(tài)變化的特點(diǎn)；且天然氣輸送管網(wǎng)本身的工況復(fù)雜多變。為了滿(mǎn)足天然氣調(diào)度的生產(chǎn)時(shí)效性和天然氣輸送管網(wǎng)復(fù)雜多變的工況，傳統(tǒng)的天然氣管網(wǎng)調(diào)度方法是通過(guò)在線(xiàn)仿真系統(tǒng)和離線(xiàn)仿真軟件運(yùn)算后進(jìn)行天然氣調(diào)度，但其使用難度較高，運(yùn)算量巨大，實(shí)際效果有限?；诖?，探索一種更為科學(xué)高效的天然氣管網(wǎng)調(diào)度方法已經(jīng)成為行業(yè)的迫切需求。

3、隨著人工智能和機(jī)器學(xué)習(xí)的發(fā)展，強(qiáng)化學(xué)習(xí)作為一種重要的方法開(kāi)始被廣泛應(yīng)用于各類(lèi)問(wèn)題的解決中。強(qiáng)化學(xué)習(xí)通過(guò)智能體與環(huán)境的交互學(xué)習(xí)，自動(dòng)尋找到優(yōu)化的控制策略，無(wú)需人工干預(yù)即可應(yīng)用于實(shí)時(shí)調(diào)度，展現(xiàn)出顯著的有效性與實(shí)用性。然而，這一方法在天然氣管網(wǎng)調(diào)度領(lǐng)域的應(yīng)用還面臨著一定的挑戰(zhàn)，主要在于以下二個(gè)方面：

4、1、在面對(duì)天然氣用量的動(dòng)態(tài)變化及管網(wǎng)工況復(fù)雜的情況，因決策變量離散化而導(dǎo)致調(diào)度結(jié)果精確度差；

5、2、現(xiàn)有的管網(wǎng)調(diào)度模型在訓(xùn)練時(shí)，由于合適的訓(xùn)練步長(zhǎng)難以確定，不利于模型訓(xùn)練及機(jī)器學(xué)習(xí)，訓(xùn)練難度大耗時(shí)長(zhǎng)

技術(shù)實(shí)現(xiàn)思路

1、一、解決的技術(shù)問(wèn)題

2、本發(fā)明意在提供一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法，以解決目前天然氣調(diào)度和深度學(xué)習(xí)結(jié)合形成的調(diào)度方法，在面對(duì)離散化的連續(xù)型決策變量時(shí)，出現(xiàn)的調(diào)度結(jié)果不精確，調(diào)度過(guò)程經(jīng)濟(jì)性差，和模型訓(xùn)練速度慢、耗時(shí)長(zhǎng)的問(wèn)題。

3、二、具體技術(shù)方案

4、一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法，包括以下步驟：

5、步驟s1、建立天然氣管網(wǎng)調(diào)度模型，并將天然氣管網(wǎng)調(diào)度模型轉(zhuǎn)化為具有管網(wǎng)仿真環(huán)境和合理獎(jiǎng)勵(lì)函數(shù)的馬爾科夫決策過(guò)程模型；

6、步驟s2、搭建天然氣管網(wǎng)調(diào)度模型對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體離線(xiàn)訓(xùn)練環(huán)境；

7、步驟s3、構(gòu)建近端策略?xún)?yōu)化算法中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為演員-評(píng)論家神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；

8、步驟s4、利用近端策略?xún)?yōu)化算法對(duì)強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練；

9、步驟s5、利用訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體實(shí)時(shí)獲得天然氣管網(wǎng)調(diào)度的最優(yōu)策略，并基于獲得的天然氣管網(wǎng)調(diào)度的最優(yōu)策略對(duì)天然氣管網(wǎng)進(jìn)行實(shí)時(shí)調(diào)度。

10、實(shí)現(xiàn)原理、工作原理：

11、1、本方案采用馬爾科夫決策過(guò)程模型作為天然氣管網(wǎng)調(diào)度模型，能夠通過(guò)馬爾科夫決策過(guò)程模型的強(qiáng)化學(xué)習(xí)智能體根據(jù)天然氣生產(chǎn)過(guò)程的狀態(tài)變量對(duì)天然氣管網(wǎng)給出適配的調(diào)度策略，根據(jù)此策略能夠?qū)μ烊粴夤芫W(wǎng)的各個(gè)環(huán)節(jié)進(jìn)行精準(zhǔn)控制，經(jīng)濟(jì)合理，且更具有實(shí)時(shí)性。

12、2、采用近端策略?xún)?yōu)化算法對(duì)馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練，近端策略?xún)?yōu)化算法通過(guò)收集管網(wǎng)執(zhí)行調(diào)度策略時(shí)的狀態(tài)參數(shù)、動(dòng)作參數(shù)和獎(jiǎng)勵(lì)參數(shù)并進(jìn)行學(xué)習(xí)，能夠?qū)Υ水?dāng)前策略的執(zhí)行進(jìn)行評(píng)估，有利于強(qiáng)化學(xué)習(xí)智能體根據(jù)天然氣管網(wǎng)的動(dòng)作給出最佳控制策略，對(duì)管網(wǎng)的控制更加合理；同時(shí)，在每次策略迭代時(shí)可以采用相同的數(shù)據(jù)進(jìn)行更新，提高了數(shù)據(jù)的利用效率。

13、3、采用近端策略?xún)?yōu)化算法進(jìn)行訓(xùn)練，能夠提供為強(qiáng)化智能體的學(xué)習(xí)提供合適的訓(xùn)練步長(zhǎng)，使得學(xué)習(xí)過(guò)程更加穩(wěn)定；降低了強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)難度，有效的縮短了強(qiáng)化學(xué)習(xí)智能體訓(xùn)練時(shí)長(zhǎng)；同時(shí)該算法在強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的各個(gè)步驟中能夠?qū)崿F(xiàn)小批量更新，有利于強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練和學(xué)習(xí)，且使得訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體的穩(wěn)定性和適應(yīng)性更強(qiáng)。

14、作為優(yōu)選：步驟s1中所述的天然氣管網(wǎng)包括氣井多個(gè)、脫水站、增壓站和凈化站，其中一個(gè)脫水站與多個(gè)氣井相連接；所述天然氣管網(wǎng)調(diào)度模型包括目標(biāo)函數(shù)，其中目標(biāo)函數(shù)用于計(jì)算天然氣產(chǎn)量最大值，目標(biāo)函數(shù)計(jì)算公式為：

15、mmax＝x1h1＋x2h2＋…＋xmhm

16、其中，mmax表示m個(gè)氣井的天然氣產(chǎn)量最大值；x1代表第m個(gè)的氣井開(kāi)關(guān)狀態(tài)，取值為0或1；hm表示第m個(gè)氣井的產(chǎn)量；通過(guò)對(duì)各個(gè)氣井的工作情況及產(chǎn)量進(jìn)行綜合考慮，有利于管網(wǎng)的統(tǒng)籌調(diào)度，合理精確。

17、作為優(yōu)選：步驟s1中，所述的天然氣管網(wǎng)調(diào)度模型還包括約束條件，所述約束條件包括脫水站約束、增壓站約束和凈化站約束；脫水站約束包括脫水站處理量約束和脫水站硫濃度約束；

18、從第k個(gè)脫水站和第n個(gè)氣井開(kāi)始，脫水站的最大處理量約束的計(jì)算公式為：

19、0≤xnhn+xn+1hn+1+…+xn+t-1hn+t-1≤tk??(1)

20、從第k個(gè)脫水站和第n個(gè)氣井開(kāi)始，脫水站硫濃度約束的計(jì)算公式為：

21、

22、增壓站約束：第k個(gè)增壓站從第l個(gè)氣井開(kāi)始，包含z個(gè)氣井，增壓站對(duì)z個(gè)氣井的處理量必須有最大值和最小值，若低于最小值，所有氣井需要關(guān)閉，增壓站約束的計(jì)算公式為：

23、

24、凈化廠(chǎng)約束：設(shè)第k個(gè)凈化廠(chǎng)從第d個(gè)增壓站開(kāi)始，包含j個(gè)增壓站，凈化廠(chǎng)要求j個(gè)增壓站的處理量必須有最大值和最小值，且凈化廠(chǎng)約束計(jì)算公式為：

25、

26、其中式(1)、(2)、(3)、(4)中t為氣井?dāng)?shù)量，tk為第k個(gè)脫水站的最大處理量，xn+t-1、xl＋z-1、xd+j-1為對(duì)應(yīng)氣井的開(kāi)關(guān)狀態(tài)，hn+t-1、hl+z-1、hd+j-1為對(duì)應(yīng)氣井的天然氣生產(chǎn)量，pn為第n個(gè)脫水站的硫濃度限制，pk為第k個(gè)脫水站最大硫濃度限值，其中，表示第k個(gè)增壓站的最小處理量，表示第k個(gè)增壓站的最大處理量；表示第k個(gè)凈化廠(chǎng)的最小處理量，表示第k個(gè)凈化廠(chǎng)的最大處理量；通過(guò)管網(wǎng)的結(jié)構(gòu)分析，并設(shè)置上述的約束條件，有利于為天然氣管網(wǎng)調(diào)度模型提供適宜的參數(shù)進(jìn)行仿真訓(xùn)練，也為天然氣管網(wǎng)調(diào)度模型的各個(gè)參數(shù)提供適宜的取值范圍。

27、作為一種優(yōu)選，所述天然氣管網(wǎng)調(diào)度模型的約束條件公式為：

28、

29、其中，本公式中的參數(shù)含義與式(1)、(2)、(3)、(4)一致。

30、作為優(yōu)選，步驟s1中天然氣管網(wǎng)調(diào)度模型轉(zhuǎn)化為具有管網(wǎng)仿真環(huán)境和合理獎(jiǎng)勵(lì)函數(shù)的馬爾科夫決策過(guò)程模型的具體步驟包括，

31、s1.1構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度狀態(tài)變量，其中最優(yōu)調(diào)度狀態(tài)變量s的公式為：

32、s＝{xn,t、pn,t、hn,t、yk,t、t}

33、其中xn,t為t時(shí)刻第n個(gè)油氣井的開(kāi)關(guān)狀態(tài)，pn,t為t時(shí)刻第n個(gè)油氣井的硫濃度，hn,t為t時(shí)刻第n個(gè)油氣井的產(chǎn)氣量，yk,t為t時(shí)刻第k個(gè)增壓站的運(yùn)行狀態(tài)；

34、s1.2構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度動(dòng)作變量，其中最優(yōu)調(diào)度動(dòng)作變量a的公式為：

35、a＝{xn,t、hn,t、yk,t}

36、s1.3構(gòu)建t時(shí)刻天然氣管網(wǎng)的最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù)，其中最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù)的公式為：

37、

38、其中，rt、rp、rz、rj分別為脫水站處理量越限系數(shù)、硫濃度越限系數(shù)、增壓站處理量越限系數(shù)、凈化廠(chǎng)處理量越限系數(shù)，βt、βp、βz、βj分別為前述個(gè)系數(shù)所對(duì)應(yīng)的權(quán)重，cproduction為天然氣產(chǎn)量，w為產(chǎn)量系數(shù)。

39、作為優(yōu)選，步驟s2的離線(xiàn)環(huán)境為openai?gym環(huán)境，所述離線(xiàn)環(huán)境包括線(xiàn)性方程求解器，還包括初始化功能模塊、交互模塊和獎(jiǎng)勵(lì)計(jì)算模塊；所述初始化功能模塊包括初始化函數(shù)，所述初始化函數(shù)通過(guò)運(yùn)行所述線(xiàn)性方程求解器進(jìn)行天然氣調(diào)度案例初始化，并輸出初始狀態(tài)；所述交互模塊包括step函數(shù)，所述step函數(shù)根據(jù)所述強(qiáng)化學(xué)習(xí)智能體的動(dòng)作運(yùn)行線(xiàn)性方程求解器，并向強(qiáng)化學(xué)習(xí)智能體提供結(jié)果狀態(tài)、“完成”信號(hào)以及相應(yīng)的獎(jiǎng)勵(lì)。

40、作為優(yōu)選，s3.1構(gòu)建天然氣管網(wǎng)對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體的演員神經(jīng)網(wǎng)絡(luò)，演員神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài)變量為s，輸出為動(dòng)作變量a；

41、s3.2構(gòu)建天然氣管網(wǎng)對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)智能體的評(píng)論家神經(jīng)網(wǎng)絡(luò)，輸入為狀態(tài)變量s，輸出為狀態(tài)價(jià)值函數(shù)vπ(s)，其中，vπ(s)＝e(rt|st＝s；π)，式中e(x)為期望計(jì)算函數(shù),vπ是狀態(tài)價(jià)值函數(shù)，rt表示步長(zhǎng)t中累計(jì)返回的總獎(jiǎng)勵(lì)，st為t時(shí)刻的狀態(tài)，π表示一個(gè)行動(dòng)策略。

42、作為優(yōu)選，步驟s4中強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練步驟包括：

43、s4.1：初始化近端策略?xún)?yōu)化算法的超參數(shù)，初始化評(píng)論家神經(jīng)網(wǎng)絡(luò)的權(quán)值；

44、s4.2：通過(guò)深度學(xué)習(xí)對(duì)演員神經(jīng)網(wǎng)絡(luò)進(jìn)行模仿學(xué)習(xí)(il)，將模仿學(xué)習(xí)的訓(xùn)練結(jié)果加載為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)值；

45、s4.3：讀取訓(xùn)練數(shù)據(jù)集用于強(qiáng)化學(xué)習(xí)智能體的深度強(qiáng)化學(xué)習(xí)訓(xùn)練；

46、s4.4：對(duì)訓(xùn)練數(shù)據(jù)集的每個(gè)輪次進(jìn)行洗牌；

47、s4.5：從訓(xùn)練數(shù)據(jù)集中獲取數(shù)據(jù)的批量處理大小；

48、s4.6：將智能體作用于離線(xiàn)環(huán)境，并收集軌跡；

49、s4.7：分別訓(xùn)練演員神經(jīng)網(wǎng)絡(luò)與評(píng)論家神經(jīng)網(wǎng)絡(luò)，并通過(guò)收集到的軌跡計(jì)算總獎(jiǎng)勵(lì)函數(shù)、動(dòng)作價(jià)值函數(shù)以及廣義優(yōu)勢(shì)估計(jì)函數(shù)；

50、s4.8：利用adam優(yōu)化器最大化目標(biāo)函數(shù)；

51、s4.9：重復(fù)s4.4到s4.8，直至達(dá)到設(shè)定的強(qiáng)化學(xué)習(xí)智能體訓(xùn)練輪次的上限，得到離線(xiàn)訓(xùn)練完成的強(qiáng)化學(xué)習(xí)智能體。

52、作為優(yōu)選，在步驟s4.2中通過(guò)深度學(xué)習(xí)對(duì)演員神經(jīng)網(wǎng)絡(luò)進(jìn)行模仿學(xué)習(xí)，將模仿學(xué)習(xí)的訓(xùn)練結(jié)果加載為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)值，包括以下步驟：

53、s4.2.1、通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集離線(xiàn)運(yùn)行求解器獲得最優(yōu)調(diào)度,并設(shè)置為“專(zhuān)家”動(dòng)作；

54、s4.2.2、將所得到的“專(zhuān)家”動(dòng)作以及其所對(duì)應(yīng)的狀態(tài)作為組合應(yīng)用于模仿學(xué)習(xí)，其中輸入是狀態(tài)變量，標(biāo)簽是“專(zhuān)家”動(dòng)作，采用下式作為損失函數(shù)：

55、

56、其中dtrain為訓(xùn)練數(shù)據(jù)集，nil為數(shù)據(jù)集大小，at、st分別代表t時(shí)刻的“專(zhuān)家”動(dòng)作與其所對(duì)應(yīng)狀態(tài)，通過(guò)隨機(jī)梯度下降等一階優(yōu)化器，訓(xùn)練近端策略?xún)?yōu)化算法智能體中隨機(jī)策略πθ的初始均值μθ(s)；

57、s4.2.3、從求解器的結(jié)果克隆出最優(yōu)天然氣管網(wǎng)調(diào)度設(shè)置；再將模仿學(xué)習(xí)的結(jié)果作為演員神經(jīng)網(wǎng)絡(luò)的初始權(quán)重。

58、與現(xiàn)有技術(shù)相比，本方案具有的有益效果是：

59、1、將管網(wǎng)調(diào)度模型轉(zhuǎn)化為馬爾科夫決策模型，在進(jìn)行馬爾科夫決策模型訓(xùn)練時(shí)，采用近端策略?xún)?yōu)化算法對(duì)馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練，在訓(xùn)練時(shí)，采用近端策略算法能夠保證訓(xùn)練步長(zhǎng)合適，降低強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)難度，有效的縮短了強(qiáng)化學(xué)習(xí)智能體訓(xùn)練時(shí)長(zhǎng)。

60、2、在進(jìn)行馬爾科夫決策模型的強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練時(shí)，通過(guò)約束條件，及對(duì)應(yīng)時(shí)刻的最優(yōu)調(diào)度變量和最優(yōu)調(diào)度獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練，涵蓋各個(gè)時(shí)段的最優(yōu)調(diào)整策略，在面對(duì)離散化的連續(xù)決策變量時(shí)，也能夠保證調(diào)度精確性。

61、3、且通過(guò)模仿學(xué)習(xí)(il)技術(shù)對(duì)獲得的數(shù)據(jù)進(jìn)行預(yù)處理，能夠在深度強(qiáng)化學(xué)習(xí)過(guò)程中達(dá)到更高的學(xué)習(xí)效率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：雷立黎,何躍,崔勝敏,張家李,李娜
技術(shù)所有人：重慶錦禹云能源科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種微生物發(fā)酵進(jìn)氣裝置
上一篇：組合式可移動(dòng)底座的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于深度強(qiáng)化學(xué)習(xí)的天然氣管網(wǎng)優(yōu)化調(diào)度方法與流程