午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

針對智能工廠毫米波網(wǎng)絡平均信息年齡的優(yōu)化調(diào)度方法

文檔序號:39729515發(fā)布日期:2024-10-22 13:34閱讀:7來源:國知局
針對智能工廠毫米波網(wǎng)絡平均信息年齡的優(yōu)化調(diào)度方法

本發(fā)明涉及無線網(wǎng)絡,尤其涉及一種針對智能工廠毫米波網(wǎng)絡平均信息年齡的優(yōu)化調(diào)度方法。


背景技術:

1、毫米波網(wǎng)絡憑借其超高速率、低延遲和高容量的特性,能夠顯著提升工業(yè)自動化和智能制造的效率,同時毫米波通信技術也是下一代6g網(wǎng)絡技術的研究重點。毫米波通信可以支持高精度的實時數(shù)據(jù)傳輸。此外,毫米波網(wǎng)絡還能夠支持大量工業(yè)物聯(lián)網(wǎng)設備的接入和數(shù)據(jù)交換,促進工廠全面數(shù)字化和智能化轉型。毫米波網(wǎng)絡利用先進的波束成形(beamforming)技術,通過定向傳輸將信號聚焦在特定方向上,從而提高信號質量和覆蓋范圍。這種定向傳輸技術能夠有效減少干擾和能量損失,使得信號能夠在高密度和復雜環(huán)境中穩(wěn)定傳輸。波束成形技術可以確保接入網(wǎng)內(nèi)的設備和傳感器始終保持高效、可靠的通信,支持實時數(shù)據(jù)傳輸和精準控制,提升智能制造系統(tǒng)的整體性能和靈活性。

2、為了有效優(yōu)化工業(yè)毫米波網(wǎng)絡中的信息傳輸效率,現(xiàn)有研究主要集中于延遲最小化和帶寬分配。然而,這些方法通常沒有充分考慮信息的實時性和更新頻率,導致在實際應用中信息年齡(age?of?information,aoi)較高,無法滿足工業(yè)4.0對實時性和精確控制的需求。此外,傳統(tǒng)優(yōu)化方法在面對高動態(tài)和復雜環(huán)境時,往往因動作空間指數(shù)爆炸問題而無法實現(xiàn)有效的調(diào)度。深度強化學習因其強大的決策能力和自適應性,成為解決此類問題的理想選擇。深度強化學習能夠通過不斷迭代學習,找到最優(yōu)的調(diào)度策略,從而有效應對大規(guī)模和高復雜度的工業(yè)環(huán)境,最終實現(xiàn)系統(tǒng)加權平均信息年齡的最小化。


技術實現(xiàn)思路

1、為解決上述技術問題,本發(fā)明提出了針對智能工廠毫米波網(wǎng)絡平均信息年齡的優(yōu)化調(diào)度方法,采用基于深度強化學習的算法,將系統(tǒng)模型建模為馬爾可夫決策過程,從而求解長期加權平均信息年齡波束調(diào)度優(yōu)化問題,通過多次訓練迭代,找到最優(yōu)的調(diào)度策略,可以實現(xiàn)高效實時的數(shù)據(jù)傳輸。

2、為實現(xiàn)上述目的,本發(fā)明提供了針對智能工廠毫米波網(wǎng)絡平均信息年齡的優(yōu)化調(diào)度方法,包括:

3、構建使用定向傳輸天線的智能工廠毫米波網(wǎng)絡模型以及傳輸模型系統(tǒng);

4、定義最小化系統(tǒng)的長期加權平均信息年齡波束調(diào)度優(yōu)化問題;

5、將所述智能工廠毫米波網(wǎng)絡模型以及傳輸模型系統(tǒng)建模為馬爾可夫決策過程,確定系統(tǒng)所處馬爾可夫過程的狀態(tài)空間、動作空間以及獎勵函數(shù);

6、采集智能工廠毫米波網(wǎng)絡整個系統(tǒng)內(nèi)t個時隙的參數(shù)信息,構建基于神經(jīng)網(wǎng)絡的智能調(diào)度網(wǎng)絡,通過與環(huán)境進行交互,調(diào)整所述智能調(diào)度網(wǎng)絡的網(wǎng)絡參數(shù);

7、訓練所述智能調(diào)度網(wǎng)絡,直至達到性能要求,根據(jù)訓練好的智能調(diào)度網(wǎng)絡,采集節(jié)點的系統(tǒng)狀態(tài),選擇最優(yōu)策略進行調(diào)度。

8、優(yōu)選地,所述智能工廠毫米波網(wǎng)絡模型包括基站及若干接收節(jié)點,所述基站用于向信號范圍內(nèi)的接收節(jié)點傳輸數(shù)據(jù)文件,所述基站側面裝配有定向天線,所述定向天線用于將數(shù)據(jù)文件傳輸給信號范圍內(nèi)的接收節(jié)點;所述傳輸模型為扇形天線模型,所述扇形天線模型的發(fā)射天線采用單個射頻鏈的模擬波束成形技術,以集中發(fā)射信號的強度,在任意方向上調(diào)整波束寬度和波束長度,用于將波束覆蓋一個節(jié)點子集。

9、優(yōu)選地,定義最小化所述系統(tǒng)的長期加權平均信息年齡波束調(diào)度優(yōu)化問題,包括:

10、分別定義單個節(jié)點信息年齡的更新方式、整個系統(tǒng)的長期加權平均信息年齡,獲得所述優(yōu)化問題;

11、其中,定義所述單個節(jié)點信息年齡的更新方式的方法為:

12、

13、式中,表示波束組在t時隙開始傳輸,為指示變量表示節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在時隙t+1的信息年齡值,為傳輸波束組所需要的時隙數(shù),表示節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在時隙t的信息年齡值,為被選定傳輸?shù)牟ㄊM;

14、定義所述整個系統(tǒng)的長期加權平均信息年齡的方法為:

15、

16、式中,為各個節(jié)點的權重參數(shù),為整個系統(tǒng)的長期加權平均信息年齡,為時間段的總長度,為節(jié)點總數(shù),i為接收節(jié)點。

17、優(yōu)選地,所述優(yōu)化問題表示為:

18、

19、式中,表示可選波束組的總個數(shù),j為波束組的索引;

20、在每個時隙做出決策,目標為最小化長期加權平均信息年齡,其中約束1表示每個時隙中只能有一個波束組進行傳輸,約束2表示如果波束組在時隙進行傳輸,則波束組內(nèi)的所有節(jié)點在該時隙內(nèi)必須沒有剩余時隙需要傳輸。

21、優(yōu)選地,將系統(tǒng)模型建模為馬爾可夫決策過程,確定系統(tǒng)所處馬爾可夫過程的狀態(tài)空間、動作空間以及獎勵函數(shù),包括:

22、確認包含各節(jié)點在時隙t時的信息年齡,以及各節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),定義所述馬爾可夫過程的狀態(tài)空間為二元組;

23、將所述馬爾可夫過程的動作空間表示在時隙t調(diào)度傳輸波束組或者等待其他波束組傳輸完成;

24、將所述馬爾可夫過程的獎勵函數(shù)定義為時隙t中所有節(jié)點加權信息年齡之和的負值。

25、優(yōu)選地,所述狀態(tài)空間為:

26、

27、式中,為狀態(tài)空間,為指示變量表示接收節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在t時隙的信息年齡,i為接收節(jié)點;

28、所述動作空間為:

29、

30、其中,表示波束組在t時隙開始傳輸,特別地,當時,對應的表示不傳輸波束,為動作空間,表示可選波束組的總個數(shù),j為波束組的索引;

31、所述獎勵函數(shù)包括瞬時獎勵和累積獎勵,其中,所述瞬時獎勵為:

32、

33、式中,為t時隙的瞬時獎勵,為節(jié)點的總個數(shù),為各個接收節(jié)點的權重參數(shù),為節(jié)點i在時隙t的信息年齡值;

34、所述累積獎勵為:

35、

36、式中,為從0時隙直至t時隙的累積獎勵,t為整個時間段的長度,l為時隙的索引,為累積折扣因子,為第l時隙的即時獎勵。

37、優(yōu)選地,所述智能調(diào)度網(wǎng)絡包括actor子網(wǎng)絡和critic子網(wǎng)絡,所述actor子網(wǎng)絡和critic子網(wǎng)絡采用相同的狀態(tài)輸入層,若干全連接層作為隱藏層,并使用relu函數(shù)作為激活函數(shù);其中,所述actor子網(wǎng)絡輸出表示策略的概率值向量,記為,actor子網(wǎng)絡用于擬合狀態(tài)到動作的映射,即策略,對應actor子網(wǎng)絡根據(jù)不同系統(tǒng)狀態(tài)做出策略的過程,其維度與動作空間的大小相等;所述critic子網(wǎng)絡輸出為當前狀態(tài)值函數(shù)的估計值,用于評估從當前狀態(tài)執(zhí)行動作得到的預期回報;

38、在所述actor子網(wǎng)絡后連接有掩碼mask模塊,所述掩碼mask模塊用于保證選取的動作都為合法,將actor的概率結果乘以一個用于約束的掩碼向量,獲得概率向量,所述概率向量經(jīng)過約束處理后保留下合法動作的概率值,約束條件為:如果當前時隙有波束組未傳輸完畢占據(jù)信道,則同一時隙內(nèi)不能調(diào)度傳輸其他波束組。

39、優(yōu)選地,調(diào)整所述智能調(diào)度網(wǎng)絡的網(wǎng)絡參數(shù),包括:

40、在每個時隙t的開始,將系統(tǒng)狀態(tài)輸入所述actor子網(wǎng)絡得到約束后的概率值向量,并通過采樣選取一個動作;

41、環(huán)境在時隙t采取決策并得到瞬時獎勵,根據(jù)t時隙的系統(tǒng)狀態(tài)和采取的動作,依據(jù)狀態(tài)轉移概率得到下一個系統(tǒng)狀態(tài);

42、然后將所述系統(tǒng)狀態(tài)輸入所述critic子網(wǎng)絡獲得狀態(tài)值函數(shù)的估計值;將時隙t的五元組<?>作為一條經(jīng)驗存入經(jīng)驗回放緩存,用于后續(xù)網(wǎng)絡的訓練;

43、處理完成后步入下個時隙,重復此過程,直至達到最大時隙數(shù)t;

44、完成一輪交互后,計算優(yōu)勢函數(shù),并且分別計算actor子網(wǎng)絡和critic子網(wǎng)絡的損失函數(shù),并且更新網(wǎng)絡參數(shù)。

45、優(yōu)選地,通過反向傳播方法分別計算所述actor子網(wǎng)絡和critic子網(wǎng)絡的梯度,更新所述網(wǎng)絡參數(shù),具體為:

46、

47、其中,和分別為actor子網(wǎng)絡的學習率和critic子網(wǎng)絡的學習率,和分別為actor子網(wǎng)絡損失函數(shù)關于網(wǎng)絡參數(shù)的梯度和critic子網(wǎng)絡損失函數(shù)關于網(wǎng)絡參數(shù)的梯度,為actor網(wǎng)絡的參數(shù),為critic網(wǎng)絡的參數(shù)。

48、優(yōu)選地,選擇所述最優(yōu)策略進行調(diào)度的方法為:

49、

50、式中,為基于訓練好的參數(shù)的策略,表示在時隙選擇的最優(yōu)波束組調(diào)度策略,為選取出t時刻使得策略值最大的值,表示波束組在t時隙開始傳輸。

51、與現(xiàn)有技術相比,本發(fā)明具有如下優(yōu)點和技術效果:

52、(1)本發(fā)明針對智能工廠毫米波網(wǎng)絡的實時性通信需求,通過預先處理優(yōu)化的波束降低調(diào)度的復雜度,并進一步使用基于深度強化學習的方法以應對算法調(diào)度的動作空間指數(shù)增長的問題,保證了高實時的數(shù)據(jù)有效傳輸。

53、(2)本發(fā)明具有較強的通用性和實用性,可以自適應地應對智能工廠毫米波網(wǎng)絡的動態(tài)系統(tǒng)狀態(tài),實現(xiàn)數(shù)據(jù)的實時穩(wěn)定傳輸,提高系統(tǒng)的安全性和穩(wěn)定性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1