本發(fā)明涉及計算機,尤其涉及一種基于圖強化學(xué)習(xí)的移動機械臂可達性地圖計算方法。
背景技術(shù):
1、具身智能是一種基于物理身體進行感知或行動的智能系統(tǒng)。通過與環(huán)境的監(jiān)護獲取信息,理解問題,做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。具身智能研究的一個前沿領(lǐng)域是智能體與環(huán)境之間的交互和聯(lián)系,任務(wù)要求智能積極的與環(huán)境進行交互以完成目標(biāo)任務(wù)。移動操作機器人(mobile?manipulation,?mm)是具身智能應(yīng)用的典型例子,由于其移動性和靈活等等多種優(yōu)勢被廣泛應(yīng)用于家庭室內(nèi)場景中,以完成各種導(dǎo)航與交互任務(wù)。近年來,該領(lǐng)域的相關(guān)研究正在迅速增長,許多挑戰(zhàn)賽如habitat?rearrangement、thethreedworld和ai2-thor等挑戰(zhàn)被提出。
2、在機器人執(zhí)行移動操作任務(wù)時,同時需要依賴機器人的底盤和機械臂,而機械臂操作是否能夠成功執(zhí)行很大程度上依賴于好的基座定位。然而,如何確定好的底盤位置仍然具有挑戰(zhàn)性。在室內(nèi)環(huán)境中存在多種復(fù)雜物品,如地面上的障礙物和桌面上的障礙物對于機器人而言是兩種不同類型的障礙物信息,如何能夠更好的對環(huán)境進行建模使機器人能夠理解環(huán)境中物品之間的關(guān)系是目前亟需解決的問題。此外,在室內(nèi)環(huán)境中機器人需要在不同的場景中進行切換。如對于在桌子和抽屜中執(zhí)行任務(wù)時,機器人需要選擇不同的基座位置,因此機器人需要學(xué)會策略間的快速遷移以快速適應(yīng)場景的變換。目前雖然對長時復(fù)雜操作任務(wù)有了大量的研究,但少有研究如何將可達性地圖用于解決技能之間的hand-off問題,如導(dǎo)航和抓取,或者導(dǎo)航和放置之間的切換問題。
3、目前針對如何對室內(nèi)場景進行建模不同的學(xué)者提出了許多方法,在object?goalnavigation中常采用3d點云建模,但該方法需要消耗大量運算資源而我們的移動操作平臺計算資源有限,且針對可達性地圖生成任務(wù)不需要過于細致的建模,而僅僅需要幫助機器人理解物品的空間關(guān)系。此外,如何獲取室內(nèi)場景中移動操作機器人可達性數(shù)據(jù)前人也進行了大量的研究。在經(jīng)典的方法中,通過在每個基座位置多次進行逆運動學(xué)求解獲取逆可達性地圖,但該方法的計算量過大需要頻繁的計算更新地圖并計算逆可達性;基于強化學(xué)習(xí)的方法,需要針對每個場景進行訓(xùn)練,對實際環(huán)境中環(huán)境發(fā)生動態(tài)變換的擴展和遷移能力較差。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于圖強化學(xué)習(xí)的移動機械臂可達性地圖計算方法。
2、為實現(xiàn)上述發(fā)明目的,本發(fā)明提供一種基于圖強化學(xué)習(xí)的移動機械臂可達性地圖計算方法,包括:
3、s1.基于圖注意力網(wǎng)絡(luò)捕捉目標(biāo)環(huán)境中移動機械臂與周圍物體之間的相對位置關(guān)系,以對所述目標(biāo)環(huán)境進行建模并生成關(guān)于所述目標(biāo)環(huán)境的異構(gòu)節(jié)點圖和與所述異構(gòu)節(jié)點圖相對應(yīng)的特征向量;
4、s2.構(gòu)建所述移動機械臂的移動操作模型;
5、s3.獲取所述異構(gòu)節(jié)點圖、所述特征向量和所述移動操作模型并采用圖強化學(xué)習(xí)生成供所述移動機械臂移動操作的可達性地圖;其中,所述可達性地圖包括:所述移動機械臂作用于節(jié)點的狀態(tài)-動作對;
6、s4.選擇所述可達性地圖中的狀態(tài)-動作對并輸入評論家網(wǎng)絡(luò),以評價所述移動機械臂作用于節(jié)點的狀態(tài)-動作對的 q值,以完成所述可達性地圖的計算。
7、根據(jù)本發(fā)明的一個方面,步驟s1中,所述異構(gòu)節(jié)點圖表示為:
8、;
9、其中,表示所述異構(gòu)節(jié)點圖中的節(jié)點,表示所述異構(gòu)節(jié)點圖中用于連接所述節(jié)點的有向邊;
10、所述異構(gòu)節(jié)點圖中的節(jié)點分別為:目標(biāo)物體節(jié)點、容器節(jié)點、地面障礙節(jié)點和桌面障礙物節(jié)點;
11、所述節(jié)點的有向邊分別為:所述容器節(jié)點、所述地面障礙節(jié)點和所述桌面障礙物節(jié)點分別與所述目標(biāo)物體節(jié)點的有向邊。
12、根據(jù)本發(fā)明的一個方面,步驟s1中,基于圖注意力網(wǎng)絡(luò)捕捉目標(biāo)環(huán)境中移動機械臂與周圍物體之間的相對位置關(guān)系,以對所述目標(biāo)環(huán)境進行建模并生成關(guān)于所述目標(biāo)環(huán)境的異構(gòu)節(jié)點圖和與所述異構(gòu)節(jié)點圖相對應(yīng)的特征向量的步驟中,包括:
13、s11.基于機器人本體視覺或者已知環(huán)境信息獲取目標(biāo)環(huán)境中所述移動機械臂周圍的物體;其中,所述物體分別為:目標(biāo)、容器、地面障礙物和桌面障礙物;
14、s12.獲取所述移動機械臂與周圍的所述物體之間的空間位置關(guān)系,并獲取各物體之間的同構(gòu)節(jié)點圖;其中,在所述同構(gòu)節(jié)點圖中,與所述容器相對應(yīng)的容器節(jié)點,與所述地面障礙物相對應(yīng)的地面障礙節(jié)點,與所述桌面障礙物相對應(yīng)的桌面障礙物節(jié)點分別在與所述目標(biāo)相對應(yīng)的目標(biāo)節(jié)點的周圍;
15、s13.基于所述物體的空間分布,采用獨熱編碼方式對所述同構(gòu)節(jié)點圖的各個所述節(jié)點添加維度信息,以生成所述異構(gòu)節(jié)點圖和所述特征向量。
16、根據(jù)本發(fā)明的一個方面,與所述異構(gòu)節(jié)點圖相對應(yīng)的特征向量表示為:
17、;
18、其中,表示節(jié)點的特征,表示節(jié)點在第0層隱藏層的輸出,表示類別信息,是四種類型節(jié)點維度的總和,表示節(jié)點的初始特征向量,上標(biāo)用于區(qū)分不同的隱藏層,以用于區(qū)分不同層的隱藏層,表示節(jié)點在第層隱藏層的特征表示,表示帶有權(quán)重的多層感知器mlp網(wǎng)絡(luò),表示節(jié)點在第層隱藏層的輸出,表示節(jié)點在第1層隱藏層的輸出,表示線性變換矩陣,表示節(jié)點在隱藏層的特征表示,表示節(jié)點的鄰接節(jié)點集,表示有向邊的歸一化注意力權(quán)重,表示有向邊在隱藏層的歸一化注意力權(quán)重,表示目標(biāo)環(huán)境的最終表示,表示第一層的輸出,表示觀測,是一個激活函數(shù)。
19、根據(jù)本發(fā)明的一個方面,步驟s2中,構(gòu)建所述移動機械臂的移動操作模型的步驟中,所述移動操作模型基于馬爾可夫決策過程的行動者網(wǎng)絡(luò)所構(gòu)建;其中,所述移動操作模型由元組定義,且表示為:
20、;
21、其中,和分別表示狀態(tài)和動作空間,表示狀態(tài)轉(zhuǎn)移函數(shù),表示獎勵函數(shù),表示是折扣因子,表示初始狀態(tài)分布。
22、根據(jù)本發(fā)明的一個方面,步驟s3中,獲取所述異構(gòu)節(jié)點圖、所述特征向量和所述移動操作模型并采用圖強化學(xué)習(xí)生成供所述移動機械臂移動操作的可達性地圖的步驟中,包括:
23、s31.構(gòu)建所述移動機械臂移動操作的策略,其中,策略表示為:
24、;
25、其中,表示所述移動機械臂移動操作的狀態(tài),表示在狀態(tài)下所采取的動作;
26、s32.基于所述異構(gòu)節(jié)點圖、所述特征向量和所述移動操作模型構(gòu)建所述移動機械臂移動操作的混合動作空間,其中,所述混合動作空間表示為:
27、;
28、;
29、其中,表示離散動作空間,其中,離散動作表示移動機械臂的操作動作,表示連續(xù)動作空間,其中,連續(xù)動作表示移動機械臂的底座移動動作,和分別表示極坐標(biāo)中的半徑和角度坐標(biāo),表示移動機械臂的當(dāng)前方位,表示在離散動作空間中定義,表示移動機械臂的開始/停止信號,當(dāng)時,移動機械臂執(zhí)行抓取動作;否則,移動機械臂保持不動;
30、s33.基于獲得的所述混合動作空間進行圖強化學(xué)習(xí),以生成所述可達性地圖;其中,所述可達性地圖中的狀態(tài)-動作對表示為:。
31、根據(jù)本發(fā)明的一個方面,步驟s4中,選擇所述可達性地圖中的狀態(tài)-動作對并輸入評論家網(wǎng)絡(luò),以評價所述移動機械臂作用于節(jié)點的狀態(tài)-動作對的 q值,以完成所述可達性地圖的計算的步驟中,包括:
32、s41.確定所述異構(gòu)節(jié)點圖中用于評估可達性的區(qū)域;
33、s42.確定所述移動機械臂在所述區(qū)域中的位置坐標(biāo),并獲取關(guān)于所述位置坐標(biāo)的變換矩陣;
34、s43.基于所述變換矩陣將所述區(qū)域中的目標(biāo)物體節(jié)點、容器節(jié)點、地面障礙節(jié)點和桌面障礙物節(jié)點的坐標(biāo)從全局坐標(biāo)系轉(zhuǎn)換到所述移動機械臂的坐標(biāo)系中;
35、s44.以所述移動機械臂面向目標(biāo)物體的方向作為中心,并確定以為中心的180度范圍,其中,在該范圍內(nèi)每隔10度取一個點共取19個點;
36、s45.構(gòu)建所述移動機械臂移動操作的混合動作空間的動作值,以及確定出狀態(tài)值,以獲得相應(yīng)的狀態(tài)-動作對;
37、s46.將獲得的所述狀態(tài)-動作對輸入至所述評論家網(wǎng)絡(luò),以完成對狀態(tài)-動作對的 q值的求解,完成所述可達性地圖的計算。
38、根據(jù)本發(fā)明的一種方案,本發(fā)明采用圖注意力網(wǎng)絡(luò)對目標(biāo)場景建模的方法,能夠有效的對目標(biāo)場景的空間關(guān)系進行建模,且針對室內(nèi)flexibel場景的變換,使得本發(fā)明具有良好的返回性能。
39、根據(jù)本發(fā)明的一種方案,本發(fā)明通過將目標(biāo)場景中物體進行四種類型分類的方式,使得本發(fā)明對建模過程的計算量被有效降低,可充分的提高本發(fā)明的生成效率。
40、根據(jù)本發(fā)明的一種方案,本發(fā)明通過采用異構(gòu)圖對場景建模簡化的方式,可以進一步基于圖注意力網(wǎng)絡(luò)與混合動作空間實現(xiàn)圖強化學(xué)習(xí),以實現(xiàn)了針對復(fù)雜場景中移動機械臂無碰撞且成功的抓取可達性地圖的精確生成。
41、根據(jù)本發(fā)明的一種方案,本發(fā)明通過基于圖強化學(xué)習(xí)的方式獲取桌面附近的可達性,能夠快速的對場景中的空間關(guān)系進行分析,獲取可達性數(shù)據(jù),使本發(fā)明能夠在實際的應(yīng)用中保持較好的時效性。
42、根據(jù)本發(fā)明的一種方案,本發(fā)明能夠?qū)τ谌萜鞲浇目蛇_性進行評估,將可達性區(qū)域劃分為五個等級,從而幫助機器人在固定基座的情況下,使本發(fā)明能夠在實際應(yīng)用場景中實現(xiàn)更高的成功率。