一種基于深度強(qiáng)化學(xué)習(xí)的MOBA游戲AI算法

文檔序號(hào)：39726949發(fā)布日期：2024-10-22 13:27閱讀：1來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算，提供了一種基于深度強(qiáng)化學(xué)習(xí)的moba游戲ai算法。

背景技術(shù)：

1、當(dāng)前游戲ai的虛擬自博弈算法：moba游戲a1算法涉及多智能體對(duì)抗與合作，需小型化模型和高效決策，因而要求嚴(yán)苛。自博弈訓(xùn)練中ai易策略退化和遺忘，需在數(shù)據(jù)量不大時(shí)確保進(jìn)步。此外訓(xùn)練資源需求大，普通研究者難以承受。因此在有限資源下實(shí)現(xiàn)高效算法設(shè)計(jì)并提高訓(xùn)練效率尤為重要。基于openai?five中運(yùn)用的啟發(fā)式虛擬自博弈算法，提出了基于多樣性評(píng)分的虛擬自博弈算法，通過(guò)加入策略多樣性的評(píng)價(jià)指標(biāo)和對(duì)評(píng)分函數(shù)的修改，增強(qiáng)了模型在對(duì)抗訓(xùn)練過(guò)程中對(duì)手策略的多樣性，提高了模型的訓(xùn)練效果。在少量計(jì)算資源下高效訓(xùn)練ai的問(wèn)題中使用全連接和循環(huán)神經(jīng)網(wǎng)絡(luò)混合設(shè)計(jì)、基于多頭注意力機(jī)制的可調(diào)節(jié)通信機(jī)制、基于自博弈學(xué)習(xí)的多智能體價(jià)值網(wǎng)絡(luò)解耦設(shè)計(jì)方法以及pscn結(jié)構(gòu)等改進(jìn)方案，解決了相關(guān)問(wèn)題。

2、moba游戲是即時(shí)對(duì)抗類游戲，并且大多數(shù)情況下都只有敵我兩個(gè)陣營(yíng)，因此，目前moba游戲的ai全部都采用虛擬自博弈的方式進(jìn)行訓(xùn)練，native?self-play是最經(jīng)典也是最基礎(chǔ)的虛擬自博弈算法，它每次都選擇最新的策略當(dāng)對(duì)手。因此，它的采樣策略分布函數(shù)ω(.|.,.)和策略集更新函數(shù)g(.|.,.)被表示為3-1和3-2：

3、

4、g(πo，π)＝{π}????????????????????(3-2)

5、表達(dá)式的具體含義是：于所有的歷史策略π’屬于策略集πo，如果這個(gè)歷史策略π’等于當(dāng)前策略π(即π’＝＝π)，那么ω(π’|πo，π)的值為1。這意味著在native?self-play算法中，總是以概率1選擇當(dāng)前最新的策略作為對(duì)手。

6、對(duì)于所有其他不等于當(dāng)前策略π的歷史策略π’，ω(π’|πo，π)。這表示其他歷史策略不被選擇作為對(duì)手。

7、g(πo，π)＝{π)意味著，當(dāng)使用新策略π來(lái)更新策略集π∧o時(shí)，更新后的策略集就變成了只包含這個(gè)新策略π。換句話說(shuō)，每次新策略產(chǎn)生后，策略集就被更新為只包含這個(gè)最新策略。這種更新方式是native?self-play算法的一部分，它每次都選擇最新的策略作為對(duì)手。δ-uniform?self-play算法相比于native?self-play而言，多加了一個(gè)參數(shù)δ∈[0，1]每次選擇對(duì)手時(shí)不再只采用最新的策略，而是有的δ概率選擇最新策略，1-6的概率均勻選擇歷史的策略，增加了博弈對(duì)手策略的多樣性，同時(shí)更有效地緩解了循環(huán)策略和策略退化的問(wèn)題，避免智能體過(guò)早陷入局部最優(yōu)，算法還存在一些缺點(diǎn)，因?yàn)橛?jì)算機(jī)的內(nèi)存大小限制，策略集πo不可能無(wú)限的大，它需要不斷剔除之前存入的策略。并且策略集的對(duì)手模型質(zhì)量參差不齊，無(wú)法保證后續(xù)訓(xùn)練能采樣到高質(zhì)量的對(duì)抗數(shù)據(jù)。openai?five在δ-uniformself-play的基礎(chǔ)上，設(shè)計(jì)了啟發(fā)式的自博弈算法，它們?cè)?-δ的概率下不再均勻選擇歷史策略，而是基于歷史策略的評(píng)分進(jìn)行選擇更能挑選合適且強(qiáng)大的選手，和δ-uniform?self-play一樣該算法在δ＝80％的概率下進(jìn)行native?selfplay，在1-δ＝20％的概率下對(duì)策略集πo進(jìn)行采樣。不同的是，當(dāng)策略π加入策略集時(shí)，會(huì)同時(shí)加入初始評(píng)分q＝h，當(dāng)策略π擊敗了策略集πo中選中的對(duì)手π’i之后，原來(lái)π’i的評(píng)分會(huì)按照公式3-3進(jìn)行更新：

8、

9、η代表著更新率，通常被設(shè)置為一個(gè)比較小的數(shù)字，|m|表示策略集πo的大小，即策略集中策略的總數(shù)，e是自然對(duì)數(shù)的底數(shù)，q是策略的評(píng)分。

10、但他的評(píng)價(jià)指標(biāo)還是過(guò)于單一，自博弈算法需要在保證對(duì)手策略強(qiáng)大的同時(shí)，還能有一定的策略多樣性，提升自身的魯棒性和對(duì)應(yīng)未知場(chǎng)景的應(yīng)對(duì)力。

11、基于深度強(qiáng)化學(xué)習(xí)的moba游戲ai算法設(shè)計(jì)：moba游戲ai屬于多智能體范疇，因此常用mappo、maddpg、qmix等算法進(jìn)行訓(xùn)練。在這幾個(gè)算法當(dāng)中，mappo的優(yōu)勢(shì)非常明顯，它易于編寫，方便調(diào)整，且性能優(yōu)異，更重要的是moba游戲ai強(qiáng)調(diào)團(tuán)隊(duì)合作，合作通信在對(duì)局中的作用非常重要，強(qiáng)制建模成多智能體問(wèn)題會(huì)喪失很多單智能體的優(yōu)勢(shì)，在這個(gè)問(wèn)題上mappo在將moba游戲的ai建模成介于多智能體和單智能體agent上有著獨(dú)特的優(yōu)勢(shì)，在設(shè)計(jì)算法和網(wǎng)絡(luò)上擁有更高的靈活性。介于上述mappo的算法天然優(yōu)勢(shì)，大型moba游戲ai如openai?five和絕悟都不約而同采用了這個(gè)算法。

12、大部分moba游戲是大型多人在線競(jìng)技游戲，具有其他游戲沒(méi)有的復(fù)雜環(huán)境，在對(duì)于moba游戲的設(shè)計(jì)有如下難點(diǎn)：

13、1.moba游戲的環(huán)境很復(fù)雜，采樣需要的運(yùn)算算力較高，如何搭建訓(xùn)練框架，使之能夠利用多核多gpu進(jìn)行高效采樣和訓(xùn)練。

14、2.ai的動(dòng)作決策相比于其他任務(wù)而言更加復(fù)雜，更需要復(fù)雜的網(wǎng)絡(luò)設(shè)計(jì)，保證網(wǎng)絡(luò)的高效、輕量且易于推理很重要，因?yàn)閙oba游戲ai的決策有低時(shí)延的需求。

15、3.游戲探索空間巨大，存在很多極度稀疏的獎(jiǎng)勵(lì)，這些獎(jiǎng)勵(lì)能夠?qū)倮鸬經(jīng)Q定性作用，如何設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)使之易于學(xué)習(xí)很關(guān)鍵。

16、在本設(shè)計(jì)中使用的主要方法：

17、基于近端策略優(yōu)化算法的雙重裁剪損失函數(shù)；

18、基于近端策略優(yōu)化算法的動(dòng)作約束損失函數(shù)；

19、全連接和循環(huán)神經(jīng)網(wǎng)絡(luò)混合設(shè)計(jì)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明重點(diǎn)剖析了moba游戲ai訓(xùn)練的兩個(gè)重要問(wèn)題并提出了相應(yīng)的改進(jìn)方法，但是存在以下兩個(gè)問(wèn)題：

2、一、虛擬自博弈容易導(dǎo)致策略退化的問(wèn)題；

3、二、如何在少量訓(xùn)練資源下高效訓(xùn)練ai的問(wèn)題。

4、對(duì)于第一個(gè)問(wèn)題，基于openai?five的啟發(fā)式虛擬自博弈算法提出了改進(jìn)的算法。具體原因是：

5、1.openai?five使用了公式3-7作為評(píng)分函數(shù)，該公式雖然保證了評(píng)分函數(shù)的單調(diào)遞減特性，能夠不斷降低敗方策略被選中的概率，但它并不能保證函數(shù)嚴(yán)格小于0，如果參數(shù)設(shè)置不佳，容易導(dǎo)致函數(shù)值爆炸的現(xiàn)象，甚至產(chǎn)生負(fù)無(wú)窮的值。

6、2.openai?five提出的啟發(fā)式算法在一定程度上更能挑選合適且強(qiáng)大的對(duì)手，但它的評(píng)價(jià)指標(biāo)還是比較單一。因?yàn)樽圆┺倪^(guò)程的循環(huán)性很強(qiáng)，打敗策略相近的對(duì)手不一定能有傳遞性上的增強(qiáng)。因此，自博弈算法需要在保證對(duì)手策略強(qiáng)大的同時(shí)，還能有一定的策略多樣性。這就像經(jīng)常打比賽的職業(yè)選手，他們更希望有風(fēng)格不同且強(qiáng)大的對(duì)手，與他們進(jìn)行對(duì)戰(zhàn)訓(xùn)練能夠?qū)W會(huì)更多應(yīng)對(duì)方式和套路，提升自身策略的魯棒性和應(yīng)對(duì)未知對(duì)手的勝率。為此，在openai?five提出的啟發(fā)式算法的基礎(chǔ)上，提出了自己的基于多樣性評(píng)分的虛擬自博弈算法。該算法通過(guò)對(duì)啟發(fā)式算法的評(píng)分機(jī)制進(jìn)行修改、加入策略多樣性的評(píng)價(jià)指標(biāo)和帶權(quán)值的模型融合算法等方式，進(jìn)一步增強(qiáng)了策略的魯棒性。

7、對(duì)于第二個(gè)問(wèn)題，游戲的環(huán)境很復(fù)雜，采樣需要的運(yùn)算算力較高，如何搭建訓(xùn)練框架，提出了全連接和循環(huán)神經(jīng)網(wǎng)絡(luò)混合設(shè)計(jì)，并詳細(xì)闡述了階段性獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和時(shí)序獎(jiǎng)勵(lì)設(shè)計(jì)對(duì)提高moba游戲ai性能的重要性。moba游戲ai屬于多智能體范疇，因此常用mappo、maddpg、qmix等算法進(jìn)行訓(xùn)練。在這幾個(gè)算法當(dāng)中，mappo的優(yōu)勢(shì)非常明顯，它易于編寫，方便調(diào)整，且性能優(yōu)異，所以算法以此為基礎(chǔ)，為了增強(qiáng)算法的穩(wěn)定性和策略的合理性對(duì)算法的損失函數(shù)進(jìn)行修改。

8、問(wèn)題一中的評(píng)價(jià)函數(shù)提供了對(duì)每個(gè)動(dòng)作的評(píng)估結(jié)果，雙重裁剪損失函數(shù)通過(guò)裁剪對(duì)這些評(píng)估結(jié)果的影響來(lái)保證策略更新的穩(wěn)定性。動(dòng)作約束損失函數(shù)在評(píng)價(jià)函數(shù)的基礎(chǔ)上對(duì)非法或不合理的動(dòng)作進(jìn)行懲罰，從而在策略更新時(shí)更傾向于選擇合理的動(dòng)作。

9、本發(fā)明為了實(shí)現(xiàn)上述目的，采用以下技術(shù)方案：

10、本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的moba游戲ai算法，包括以下步驟：

11、步驟1：通過(guò)融合策略多樣性和勝率，基于多樣性評(píng)分的虛擬自博弈改進(jìn)算法在強(qiáng)化學(xué)習(xí)中探索策略，提高策略的魯棒性，為步驟2的策略優(yōu)化提供基礎(chǔ)：

12、步驟2：采用雙重裁剪損失函數(shù)的近端策略優(yōu)化算法穩(wěn)定策略更新，并通過(guò)動(dòng)作約束損失函數(shù)協(xié)同優(yōu)化策略，優(yōu)化后的策略用于優(yōu)化步驟3的網(wǎng)絡(luò)參數(shù)；

13、步驟3：基于深度強(qiáng)化學(xué)習(xí)的moba游戲ai網(wǎng)絡(luò)模型設(shè)計(jì)，使用步驟2的結(jié)果，對(duì)策略價(jià)值設(shè)計(jì)模塊中的分組進(jìn)行優(yōu)化選擇。

14、上述方案中，步驟1包括以下步驟：

15、步驟1.1：構(gòu)造虛擬自博弈算法評(píng)價(jià)函數(shù)，多樣性評(píng)分的虛擬自博弈算法的評(píng)價(jià)函數(shù)：

16、

17、qi：表示第i個(gè)策略的評(píng)分；

18、η：代表著更新率；

19、e：這是自然對(duì)數(shù)的底數(shù)，約等于2.71828，是一個(gè)數(shù)學(xué)常數(shù)；

20、步驟1.2：對(duì)步驟1.1的評(píng)價(jià)函數(shù)中添加策略多樣性的評(píng)價(jià)因子，添加了策略多樣性的評(píng)價(jià)因子d＝diff(.，.)，用于評(píng)價(jià)當(dāng)前策略和對(duì)手策略之間的風(fēng)格差異，計(jì)算公式如下：

21、

22、π：當(dāng)前策略；

23、π：對(duì)手的策略，與當(dāng)前策略π進(jìn)行比較的另一個(gè)策略；

24、s：游戲的狀態(tài)，代表在特定時(shí)間點(diǎn)游戲的環(huán)境信息；

25、t：總的狀態(tài)數(shù)或者時(shí)間步數(shù)，用于在多樣性評(píng)分中平均化策略比較的結(jié)果；

26、i：索引或迭代變量，用于在求和表達(dá)式中迭代從0到t的所有值；

27、＝＝：比較運(yùn)算符，用于比較兩個(gè)策略在相同狀態(tài)s下是否采取了相同的行動(dòng)；

28、在得到評(píng)價(jià)因子d之后，算法的評(píng)分機(jī)制從4-1被改寫成4-3：

29、

30、通過(guò)添加了評(píng)價(jià)因子d的評(píng)分函數(shù)4-2，該算法讓策略集更傾向于保留與當(dāng)前策略差異較大且勝率高的對(duì)手策略，從而在保證策略集對(duì)手策略質(zhì)量的同時(shí)，還兼顧了策略集的策略多樣性。

31、步驟1.3：步驟1.2中的策略集進(jìn)行改進(jìn)，模型融合在算法中公式如下：

32、

33、πcon：融合后的策略；

34、|m|：是歷史策略集πo的大?。?/p>

35、pi：第i個(gè)策略的權(quán)重，它決定了每個(gè)策略在融合策略中的重要性；

36、π′i：策略集中的第i個(gè)策略；

37、表示權(quán)重歸一化的過(guò)程，確保所有權(quán)重之和為1，每個(gè)策略的權(quán)重pi被其總權(quán)重除，從而得到一個(gè)在0到1之間的歸一化權(quán)重。

38、最終策略πcon，算法會(huì)將它加入到策略集πo中，作為當(dāng)前策略后續(xù)能夠從策略集中挑選的對(duì)手。

39、上述方案中，步驟2包括以下步驟：

40、步驟2.1：使用基于近端策略優(yōu)化算法的雙重裁剪損失函數(shù)來(lái)調(diào)整策略參數(shù)，確保策略更新的穩(wěn)定性和收斂性；

41、

42、表示對(duì)某個(gè)隨機(jī)變量在策略π(θk)下的期望值；

43、(st，at)：表示時(shí)間步t的狀態(tài)st和采取的行動(dòng)at；

44、表示行動(dòng)值函數(shù)；

45、表示在策略π(θk)下，對(duì)狀態(tài)st采取行動(dòng)at的長(zhǎng)期回報(bào)的估計(jì)；

46、π(at|st；θ)：表示在狀態(tài)st下，根據(jù)參數(shù)θ計(jì)算得出的采取行動(dòng)at的概率，

47、π表示策略，它是一個(gè)從狀態(tài)到行動(dòng)的映射，θ是策略的參數(shù)；

48、π(at|st；θk)：表示在狀態(tài)st下，根據(jù)另一組參數(shù)θk計(jì)算得出的采取行動(dòng)at的概率，這里的θk是另一組策略參數(shù)；

49、這個(gè)比值比較了在兩個(gè)不同策略(由θ和θk定義)下采取同一行動(dòng)at的概率。

50、公式4-5會(huì)引入一個(gè)非常大的而且無(wú)邊界的方差，影響算法的收斂所以使用dual-ppo解決此問(wèn)題，dual-ppo的核心思想是同時(shí)優(yōu)化兩個(gè)策略，通常是主策略和輔助策略表達(dá)式如4-6所示：

51、

52、c：是一個(gè)常數(shù)，用于在雙重裁剪中進(jìn)一步限制更新的范圍；

53、策略比值用于衡量新舊策略之間的變化；

54、max(.)和min(.)：用于雙重裁剪，首先在內(nèi)層裁剪策略比值，再在外層對(duì)其進(jìn)行進(jìn)一步限制；

55、優(yōu)勢(shì)函數(shù)用于衡量當(dāng)前動(dòng)作在當(dāng)前狀態(tài)下的相對(duì)好壞。

56、這種雙重裁剪的機(jī)制是為了穩(wěn)定策略更新，防止策略更新過(guò)大，同時(shí)確保策略優(yōu)化方向的正確性，提高算法的穩(wěn)定性和性能。

57、步驟2.2：在2.1對(duì)策略進(jìn)行選擇后，對(duì)動(dòng)作進(jìn)行約束，二者協(xié)同優(yōu)化，動(dòng)作約束損失函數(shù)4-7：

58、

59、lossaction：表示動(dòng)作約束損失函數(shù)，它衡量動(dòng)作aji的合法性和合理性；

60、aji：表示在第j個(gè)樣本中第i個(gè)動(dòng)作的預(yù)測(cè)值；

61、batch：表示一批數(shù)據(jù)樣本；

62、maski：表示一個(gè)掩碼值，用于指示是否需要計(jì)算第i個(gè)動(dòng)作的損失。

63、上述方案中，步驟3包括以下步驟：

64、步驟3.1、moba游戲ai網(wǎng)絡(luò)模型包括為特征提取模塊和策略價(jià)值設(shè)計(jì)模塊：

65、特征提取模塊：用于將環(huán)境提供的信息轉(zhuǎn)化為高維特征向量，

66、策略價(jià)值設(shè)計(jì)模塊：將高維特征作為輸入設(shè)計(jì)價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

67、特征提取模塊從游戲環(huán)境中獲取不同的信息，而后采用mlp映射成高維特征，最后通過(guò)concat運(yùn)算將所有高維特征組合成一個(gè)高維特征向量；

68、步驟3.2：在步驟3.1的基礎(chǔ)上進(jìn)行改進(jìn)，對(duì)于策略價(jià)值設(shè)計(jì)模塊使用全連接與循環(huán)神經(jīng)網(wǎng)絡(luò)的混合設(shè)計(jì)，使網(wǎng)絡(luò)加速并有時(shí)序能力；

69、得到高維特征向量之后，通過(guò)全連接層的進(jìn)一步提取后，將特征按照1：3的比例進(jìn)行切割，并讓它們分別通過(guò)256維的gru和簡(jiǎn)單的全連接層產(chǎn)生時(shí)序特征和非時(shí)序特征，最后對(duì)兩個(gè)特征進(jìn)行concat；

70、對(duì)于策略價(jià)值設(shè)計(jì)模塊的輸入是特征提取模塊處理后得到的高維特征向量和敵方單位特征向量，輸出通過(guò)隔離的方式被分為5個(gè)分組，分別是價(jià)值、按鍵、移動(dòng)、技能方向和選定目標(biāo)在對(duì)5個(gè)分組值進(jìn)行選定時(shí)采用步驟2中的動(dòng)作約束損失函數(shù)進(jìn)行評(píng)價(jià)和選擇。

71、本發(fā)明通過(guò)深度強(qiáng)化學(xué)習(xí)技術(shù)，本算法在moba游戲ai中實(shí)現(xiàn)了策略多樣性和勝率的融合，從而解決了虛擬自博弈中策略退化和訓(xùn)練資源不足的問(wèn)題。具體來(lái)說(shuō)，本算法通過(guò)以下技術(shù)手段實(shí)現(xiàn)了其優(yōu)勢(shì)：

72、1.策略多樣性和勝率的融合：本算法通過(guò)改進(jìn)虛擬自博弈算法，融合了策略多樣性和勝率，使得算法在強(qiáng)化學(xué)習(xí)中能夠探索更多樣化的策略，提高了策略的魯棒性。這為后續(xù)的策略優(yōu)化提供了堅(jiān)實(shí)的基礎(chǔ)。

73、2.雙重裁剪損失函數(shù)的應(yīng)用：采用雙重裁剪損失函數(shù)的近端策略優(yōu)化算法，確保了策略更新的穩(wěn)定性和收斂性。這種方法有效地防止了策略更新過(guò)大，同時(shí)確保了策略優(yōu)化方向的正確性，提高了算法的穩(wěn)定性和性能。

74、3.混合網(wǎng)絡(luò)設(shè)計(jì)：在moba游戲ai網(wǎng)絡(luò)模型設(shè)計(jì)中，本算法采用了全連接與循環(huán)神經(jīng)網(wǎng)絡(luò)的混合設(shè)計(jì)，加速了網(wǎng)絡(luò)的運(yùn)行并增強(qiáng)了時(shí)序處理能力。這種設(shè)計(jì)有效地處理了高維特征，提高了算法的效率和性能。

75、4.策略價(jià)值設(shè)計(jì)模塊的優(yōu)化：通過(guò)優(yōu)化策略價(jià)值設(shè)計(jì)模塊，算法能夠更有效地評(píng)估和選擇不同的策略，進(jìn)一步提高了ai在游戲中的表現(xiàn)。

76、5.本發(fā)明通過(guò)融合策略多樣性和勝率的評(píng)分機(jī)制，動(dòng)態(tài)策略集更新，限制策略相似度，引入外部數(shù)據(jù)源，以及定期重新訓(xùn)練等技術(shù)手段，成功解決了虛擬自博弈導(dǎo)致的策略退化問(wèn)題。這種方法使得算法在訓(xùn)練過(guò)程中不僅考慮勝率，還注重策略的多樣性，有效避免了策略的單一化。同時(shí)，動(dòng)態(tài)更新策略集和引入外部數(shù)據(jù)源增強(qiáng)了訓(xùn)練數(shù)據(jù)的多樣性，而定期重新訓(xùn)練則確保了模型的靈活性和適應(yīng)性。最終，本發(fā)明達(dá)到了提高ai算法魯棒性和適應(yīng)性的效果。

77、6.本發(fā)明通過(guò)采用全連接與循環(huán)神經(jīng)網(wǎng)絡(luò)的混合設(shè)計(jì)，有效解決了如何在少量訓(xùn)練資源下高效訓(xùn)練ai的問(wèn)題。這種混合網(wǎng)絡(luò)設(shè)計(jì)既加速了網(wǎng)絡(luò)的運(yùn)行，又增強(qiáng)了時(shí)序處理能力，使得模型在有限的計(jì)算資源下能夠高效地訓(xùn)練。此外，通過(guò)階段性的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和時(shí)序獎(jiǎng)勵(lì)設(shè)計(jì)，本發(fā)明進(jìn)一步提高了moba游戲ai的性能。通過(guò)這些技術(shù)手段，本發(fā)明達(dá)到了在少量訓(xùn)練資源下高效訓(xùn)練ai的效果，為moba游戲ai的訓(xùn)練提供了一種高效的解決方案。

78、綜上所述，本算法通過(guò)深度強(qiáng)化學(xué)習(xí)技術(shù)，在策略多樣性和勝率融合、雙重裁剪損失函數(shù)應(yīng)用、混合網(wǎng)絡(luò)設(shè)計(jì)以及策略價(jià)值設(shè)計(jì)模塊優(yōu)化等方面實(shí)現(xiàn)了顯著的技術(shù)效果，相比現(xiàn)有技術(shù)，其優(yōu)勢(shì)在于提高了訓(xùn)練效率和算法的穩(wěn)定性，同時(shí)也增強(qiáng)了ai在moba游戲中的表現(xiàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蒲劍蘇,張煜,何逸蕾,段慶潮,張錦倫,朱焱麟
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種軸承鋼球生產(chǎn)的尺寸檢測(cè)裝置的制作方法
上一篇：定型固定裝置及定型固定系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于深度強(qiáng)化學(xué)習(xí)的MOBA游戲AI算法