如何使用Piper RL來(lái)訓(xùn)練一個(gè)簡(jiǎn)單的任務(wù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
這個(gè)存儲(chǔ)庫(kù)包含Piper RL的簡(jiǎn)單演示代碼,展示了如何使用Piper RL來(lái)訓(xùn)練一個(gè)簡(jiǎn)單的任務(wù):到達(dá)目標(biāo),該任務(wù)要求Piper的夾持器的中心達(dá)到指定的目標(biāo)位置,而不要求Piper的末端執(zhí)行器的結(jié)束姿勢(shì),通過(guò)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)。該存儲(chǔ)庫(kù)提供了兩個(gè)模擬器下的訓(xùn)練示例:Mujoco和Genesis。
存儲(chǔ)庫(kù)
Piper_rlAgilex-College
環(huán)境依賴性
?安裝與RL相關(guān)的依賴項(xiàng)
?安裝與genesis相關(guān)的依賴項(xiàng)
?PytorchInstall Pytorch,并根據(jù)CUDA版本選擇相應(yīng)的安裝命令。在鏈接中找到適用于CUDA版本的Pytorch命令。以CUDA 12.9為例,安裝命令如下:
?使用命令安裝Genesis World:
?安裝Mujoco
《創(chuàng)世紀(jì)》的例子
加載創(chuàng)世紀(jì)中的Piper模型
運(yùn)行g(shù)enesis_demo / hello_genesis.py
您可以看到成功加載了Piper模型。
控制派珀模型在創(chuàng)世紀(jì)
運(yùn)行g(shù)enesis_demo / control_piper.py
你可以看到派珀根據(jù)設(shè)定的位置移動(dòng)。
實(shí)現(xiàn)創(chuàng)世紀(jì)中多個(gè)piper的并行仿真
運(yùn)行g(shù)enesis_demo / multi_piper.py
在創(chuàng)世紀(jì)中實(shí)現(xiàn)多個(gè)風(fēng)笛手的并行訓(xùn)練
運(yùn)行piper_rl_genesis.py
你可以看到多個(gè)風(fēng)笛手試圖接近設(shè)定位置。
啟動(dòng)張sorboard查看多個(gè)風(fēng)笛手在訓(xùn)練期間的獎(jiǎng)勵(lì)變化:
基本步驟實(shí)現(xiàn)派珀Env在創(chuàng)世紀(jì)
?初始化環(huán)境
?設(shè)計(jì)獎(jiǎng)勵(lì)功能
?設(shè)置階躍函數(shù)
Mujoco例子
在Mujoco對(duì)多名風(fēng)笛手進(jìn)行并行培訓(xùn)
運(yùn)行piper_rl_mujoco.py
啟動(dòng)張sorboard查看多個(gè)風(fēng)笛手在訓(xùn)練期間的獎(jiǎng)勵(lì)變化:
在Mujoco測(cè)試訓(xùn)練好的模型
運(yùn)行piper_rl_mujoco.py
你可以看到派珀成功到達(dá)目標(biāo)位置。
本文編譯自hackster.io





