本發(fā)明屬于非授權(quán)頻段側(cè)行鏈路無線通信領(lǐng)域,具體涉及物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選方法及系統(tǒng)。
背景技術(shù):
1、隨著新型物聯(lián)網(wǎng)技術(shù)發(fā)展,例如視覺物聯(lián)網(wǎng)在各行業(yè)的應(yīng)用,新型物聯(lián)網(wǎng)設(shè)備表現(xiàn)出對大數(shù)據(jù)量傳輸?shù)膹娏倚枨?,而考慮到授權(quán)頻帶資源日益緊張,因此合理利用非授權(quán)頻段的可用資源,是提高新型物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)傳輸能力的重要路徑。
2、現(xiàn)有技術(shù)中,使用非授權(quán)頻段通過側(cè)行鏈路通信的用戶表示為sl-u(sidelink?inunlicensed?spectrum)用戶,sl-u用戶采用半持續(xù)調(diào)度的資源選擇機制,即在數(shù)目為counter值的周期內(nèi),用戶在每個產(chǎn)包周期內(nèi)選擇相對位置不變的資源來傳輸數(shù)據(jù)包;這種機制導(dǎo)致不同用戶間一旦在之前周期內(nèi)發(fā)生碰撞(即不同用戶選擇相同的時頻資源),在之后周期中會持續(xù)發(fā)生碰撞,這種失敗會不斷累積,降低傳輸數(shù)據(jù)包的可靠性和系統(tǒng)性能,直至其中一個用戶counter值減為0重新選擇資源。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選方法及系統(tǒng),解決了現(xiàn)有技術(shù)中的問題。
2、本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):
3、物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選方法,包括以下步驟:
4、s1,sl-u用戶在產(chǎn)生數(shù)據(jù)包時刻,感知非授權(quán)頻段側(cè)行鏈路無線通信系統(tǒng)內(nèi)的環(huán)境變化,接收系統(tǒng)中其他用戶的sci信息,并根據(jù)其他用戶的sci信息統(tǒng)計本周期內(nèi)該用戶的狀態(tài)值;
5、s2,sl-u用戶在選擇資源時刻,將統(tǒng)計的狀態(tài)值輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)權(quán)值記錄于用戶的sci信息中,神經(jīng)網(wǎng)絡(luò)輸出得到周期數(shù)目counter值,并在其后的counter個周期內(nèi),選擇相對位置相同的資源塊傳輸數(shù)據(jù)包;
6、s3,sl-u用戶統(tǒng)計兩次選擇資源之間的獎勵反饋;
7、s4,sl-u用戶將統(tǒng)計的狀態(tài)值和獎勵反饋輸入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),更新神經(jīng)網(wǎng)絡(luò)的權(quán)重;
8、s5,sl-u用戶下一次選擇資源,隨著神經(jīng)網(wǎng)絡(luò)權(quán)重的不斷更新,將新的環(huán)境狀態(tài)輸入到更新后的神經(jīng)網(wǎng)絡(luò)得到counter值;同時繼續(xù)進行s1到s4,不斷更新神經(jīng)網(wǎng)絡(luò)中的權(quán)重,直至sl-u用戶的獎勵反饋大于等于0,則不再更新神經(jīng)網(wǎng)絡(luò);
9、s6,在神經(jīng)網(wǎng)絡(luò)穩(wěn)定后,sl-u用戶選擇資源時,根據(jù)當(dāng)下獲取的狀態(tài)值,通過輸入到神經(jīng)網(wǎng)絡(luò)產(chǎn)生counter值,直至業(yè)務(wù)結(jié)束。
10、進一步地,所述sci信息包含用戶產(chǎn)生數(shù)據(jù)包時間和counter值。
11、進一步地,導(dǎo)致數(shù)據(jù)傳輸失敗的情況包括以下三種;
12、情況1:當(dāng)前用戶與其他用戶選擇/重選資源時,根據(jù)接收到的其他用戶sci信息中的產(chǎn)包時間和是否選擇/重選資源這兩個信息進行判斷,若當(dāng)前用戶和其他用戶產(chǎn)包時間相近且都處于選擇/重選資源狀態(tài),則用戶之間會存在共同可選擇資源,導(dǎo)致不同用戶選中同一處資源發(fā)送數(shù)據(jù)包而產(chǎn)生碰撞;
13、情況2:sl-u用戶引入cot,該機制增強競爭信道資源的能力,使sl-u用戶出現(xiàn)在連續(xù)周期內(nèi)傳輸數(shù)據(jù)包先成功后失敗的情況;
14、情況3:當(dāng)前用戶在確定資源選擇之后,將提前一個時間單位tmin執(zhí)行type1信道接入程序,但是,若信道檢測結(jié)果為忙碌,表明存在其他通信活動,預(yù)示用戶的數(shù)據(jù)包在連續(xù)周期內(nèi)發(fā)送將無法實現(xiàn)。
15、進一步地,所述用戶的狀態(tài)值計算公式為:
16、state=w1*state1+w2*state2+w3*state3
17、式中,w1、w2、w3分別為情況1、情況2、情況3的狀態(tài)值權(quán)重,state1、state2、state3分別為情況1、情況2、情況3的狀態(tài)值。
18、進一步地,所述情況2的狀態(tài)值state2為二進制變量,若情況2發(fā)生則state2=1,不發(fā)生則state2=0;所述情況3的狀態(tài)值state3為二進制變量,若情況3發(fā)生則state3=1,不發(fā)生則state3=0;
19、所述情況1的狀態(tài)值計算公式為:
20、
21、
22、
23、式中,state1為情況1的狀態(tài)值,li,j為用戶i和j之間共同可選資源塊的數(shù)目,為用戶i和j之間共同可選資源塊的數(shù)目最大值;state1的取值在區(qū)間[0,1]內(nèi);tmax為全部可選用資源占用的時間,tmin為一個資源塊所占用的時間;dti為用戶i產(chǎn)包時間,dtj為用戶j產(chǎn)包時間。
24、進一步地,所述獎勵反饋的計算公式為:
25、
26、式中,rc為用戶每一次發(fā)送數(shù)據(jù)包得到反饋,傳輸成功+1,失敗-1;r為獎勵反饋,c為用戶選擇資源塊的序號。
27、進一步地,所述神經(jīng)網(wǎng)絡(luò)采用多層全連接神經(jīng)網(wǎng)絡(luò)。
28、物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選系統(tǒng),包括:
29、狀態(tài)值統(tǒng)計模塊:sl-u用戶在產(chǎn)生數(shù)據(jù)包時刻,感知非授權(quán)頻段側(cè)行鏈路無線通信系統(tǒng)內(nèi)的環(huán)境變化,接收系統(tǒng)中其他用戶的sci信息,并根據(jù)其他用戶的sci信息統(tǒng)計本周期內(nèi)該用戶的狀態(tài)值;
30、周期數(shù)目輸出模塊:sl-u用戶在選擇資源時刻,將統(tǒng)計的狀態(tài)值輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)權(quán)值記錄于用戶的sci信息中,神經(jīng)網(wǎng)絡(luò)輸出得到周期數(shù)目counter值,并在其后的counter個周期內(nèi),選擇相對位置相同的資源塊傳輸數(shù)據(jù)包;
31、獎勵反饋計算模塊:,sl-u用戶統(tǒng)計兩次選擇資源之間的獎勵反饋;
32、學(xué)習(xí)模塊:sl-u用戶將統(tǒng)計的狀態(tài)值和獎勵反饋輸入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),更新神經(jīng)網(wǎng)絡(luò)的權(quán)重;
33、迭代更新模塊:sl-u用戶下一次選擇資源,隨著神經(jīng)網(wǎng)絡(luò)權(quán)重的不斷更新,將新的環(huán)境狀態(tài)輸入到更新后的神經(jīng)網(wǎng)絡(luò)得到counter值;同時繼續(xù)進行狀態(tài)值統(tǒng)計模塊到學(xué)習(xí)模塊的過程,不斷更新神經(jīng)網(wǎng)絡(luò)中的權(quán)重,直至sl-u用戶的獎勵反饋大于等于0,則不再更新神經(jīng)網(wǎng)絡(luò);
34、以及,結(jié)果輸出模塊:在神經(jīng)網(wǎng)絡(luò)穩(wěn)定后,sl-u用戶選擇資源時,根據(jù)當(dāng)下獲取的狀態(tài)值,利用神經(jīng)網(wǎng)絡(luò)產(chǎn)生counter值,直至業(yè)務(wù)結(jié)束。
35、一種計算機存儲介質(zhì),存儲有可讀程序,當(dāng)程序運行時,能夠執(zhí)行上述的物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選方法。
36、一種電子設(shè)備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
37、所述存儲器用于存放至少一條可執(zhí)行指令,所述可執(zhí)行指令使所述處理器執(zhí)行上述的物聯(lián)網(wǎng)設(shè)備非授權(quán)頻段側(cè)行鏈路通信資源重選方法對應(yīng)的操作。
38、本發(fā)明的有益效果:
39、1、本發(fā)明采用深度q網(wǎng)絡(luò)(deep?q-network,dqn)方法來縮短或延長用戶重選資源的周期,緩解sl-u用戶間的資源碰撞,從而提高數(shù)據(jù)傳輸可靠性,提升系統(tǒng)性能。
40、2、非授權(quán)頻段側(cè)行鏈路通信中,sl-u用戶發(fā)送方根據(jù)系統(tǒng)中環(huán)境的變化和反饋獎勵,通過dqn方法不斷學(xué)習(xí),逐漸學(xué)習(xí)出適應(yīng)環(huán)境的資源周期數(shù)調(diào)整機制;在不同周期內(nèi)用戶之間碰撞概率有差異的情況下,能夠有效調(diào)整其占用相對位置不變的資源的周期數(shù)目,提高用戶發(fā)送數(shù)據(jù)包的成功數(shù)目,優(yōu)化系統(tǒng)整體傳輸效率和性能,提高了系統(tǒng)的靈活性。