亚洲色无码国产精品网站可下载,亚洲h成年动漫在线观看网站,亚洲av中文无码乱人伦在线观看,亚洲国产一成人久久精品,亚洲av成人精品网站在线播放

金準(zhǔn)數(shù)據(jù) DeepMind機(jī)器人控制:端到端地學(xué)習(xí)視覺運(yùn)動(dòng)策略

   2020-09-01 中國機(jī)器人網(wǎng)中國鑄造網(wǎng)1920
核心提示:前言:近日,來自斯坦福大學(xué)DeepMind 的研究者提出一種學(xué)習(xí)機(jī)器人深度視覺運(yùn)動(dòng)策略的新方法,它結(jié)合強(qiáng)化學(xué)

前言:

近日,來自斯坦福大學(xué)&DeepMind 的研究者提出一種學(xué)習(xí)機(jī)器人深度視覺運(yùn)動(dòng)策略的新方法,它結(jié)合強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)來實(shí)現(xiàn)高效的強(qiáng)化學(xué)習(xí)智能體,該方法可解決大量視覺運(yùn)動(dòng)任務(wù)。實(shí)驗(yàn)證明該智能體性能顯著優(yōu)于僅使用強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)訓(xùn)練出的智能體。

近期深度強(qiáng)化學(xué)習(xí)在多個(gè)領(lǐng)域取得了很好的表現(xiàn),如視頻游戲和圍棋。對(duì)于機(jī)器人,RL 結(jié)合強(qiáng)大的函數(shù)逼近器(如神經(jīng)網(wǎng)絡(luò))可提供設(shè)計(jì)復(fù)雜控制器的通用框架,而這種控制器很難靠人力搭建?;趶?qiáng)化學(xué)習(xí)的方法在機(jī)器人控制領(lǐng)域歷史很久,但通常與低維動(dòng)作表示結(jié)合使用。近年來,使用 model-based 和 model-free 技術(shù)的深度強(qiáng)化學(xué)習(xí)在機(jī)器人控制方面取得了大量成功案例,包括模擬和在硬件上運(yùn)行兩方面。然而,使用 model-free 技術(shù)端到端地學(xué)習(xí)視覺運(yùn)動(dòng)控制器來執(zhí)行長跨度、多階段控制任務(wù)仍然存在很大難度。

開發(fā) RL 機(jī)器人智能體需要克服多項(xiàng)挑戰(zhàn)。機(jī)器人策略必須將從帶噪傳感器中得到的多模態(tài)、部分觀測(cè)數(shù)據(jù)改變?yōu)榫邆湟欢ㄗ杂啥鹊膮f(xié)作活動(dòng)。同時(shí),現(xiàn)實(shí)任務(wù)通常具備富接觸動(dòng)態(tài),并且隨著多個(gè)維度發(fā)生變化(視覺外觀、位置、形狀等),給泛化帶來了很大挑戰(zhàn)。

研究者提出一種 model-free 的深度 RL 方法,直接從像素輸入入手解決大量機(jī)器人控制任務(wù)。本論文關(guān)鍵洞察有:1)利用少量人類演示數(shù)據(jù)減少在連續(xù)域執(zhí)行探索(exploration)的難度;2)在訓(xùn)練過程中使用多種新技術(shù)(這些技術(shù)利用(exploit)了私有和任務(wù)特定的信息),以加速和穩(wěn)定視覺運(yùn)動(dòng)策略在多階段任務(wù)中的學(xué)習(xí);3)通過增加訓(xùn)練條件的多樣性來改善泛化性能。因此,這些策略在系統(tǒng)動(dòng)態(tài)、目標(biāo)外觀、任務(wù)長度等發(fā)生顯著變化的情況下仍然運(yùn)行良好。

此外,研究者還展示了該方法在兩項(xiàng)任務(wù)上的初步結(jié)果,仿真訓(xùn)練出的策略達(dá)到了向真實(shí)機(jī)器人的 zero-shot 遷移。

為了解決這些挑戰(zhàn),本論文研究者提出的方法將模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來,構(gòu)建一個(gè)統(tǒng)一訓(xùn)練框架。該方法以兩種方式利用演示數(shù)據(jù):使用混合獎(jiǎng)勵(lì),基于生成對(duì)抗模仿學(xué)習(xí)將任務(wù)獎(jiǎng)勵(lì)與模仿獎(jiǎng)勵(lì)結(jié)合起來;使用演示軌跡構(gòu)建狀態(tài)的課程(curriculum),以在訓(xùn)練中初始化 episode。因此,該方法解決了全部六個(gè)任務(wù),這些任務(wù)單憑強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)都無法解決。

為了規(guī)避對(duì)真實(shí)硬件的訓(xùn)練限制,我們采用了sim2real范式,效果不錯(cuò)。通過使用物理引擎和高通量RL算法,我們可以模擬一個(gè)機(jī)器人手臂的平行副本,在一個(gè)接觸豐富的環(huán)境中執(zhí)行數(shù)百萬個(gè)復(fù)雜的物理交互,同時(shí)消除機(jī)器人安全和系統(tǒng)重置的實(shí)際問題。此外,在訓(xùn)練過程中,我們可以利用一些新技術(shù)如在不同的模式下學(xué)習(xí)策略和價(jià)值,以對(duì)象為中心的生成對(duì)抗模仿學(xué)習(xí),可視化輔助模塊技術(shù),開發(fā)在真實(shí)系統(tǒng)條件下的特定任務(wù)信息。這些技術(shù)可以穩(wěn)定和加速策略學(xué)習(xí),而不會(huì)在測(cè)試時(shí)對(duì)系統(tǒng)有任何限制。

最后,我們將訓(xùn)練條件多樣化,如視覺外觀、對(duì)象幾何和系統(tǒng)動(dòng)力學(xué)。這既提高了對(duì)不同任務(wù)條件的概括,也加速了從模擬到現(xiàn)實(shí)的轉(zhuǎn)換。

圖 1. 研究者提出的機(jī)器人學(xué)習(xí)流程。研究者使用 3D 運(yùn)動(dòng)控制器收集某項(xiàng)任務(wù)的人類演示。提出的強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)模型利用這些演示促使模擬物理引擎的學(xué)習(xí)。然后執(zhí)行 sim2real 遷移,將習(xí)得的視覺運(yùn)動(dòng)策略遷移至真正的機(jī)器人。

2.相關(guān)研究

強(qiáng)化學(xué)習(xí)方法已被廣泛應(yīng)用于低維度的策略模型,以解決模擬和現(xiàn)實(shí)中的各種控制問題,如移動(dòng)元模型,。三種RL算法目前在連續(xù)控制問題上占主導(dǎo)地位:引導(dǎo)策略搜索方法(GPS;Levine和Koltun,基于價(jià)值的方法,如確定性政策梯度(DPG;Silver等,Lillicrap等,Heess等)或歸一化優(yōu)勢(shì)函數(shù)(NAF;Gu等)算法和基于信任區(qū)域的策略梯度算法,如信任區(qū)域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。TRPO和PPO由于其對(duì)超參數(shù)設(shè)置的健壯性以及它們的可擴(kuò)展性而保持ap-peal,但缺乏有效樣本使之并不適應(yīng)于對(duì)機(jī)器人硬件的直接訓(xùn)練。

GPS已被Levine、Yahya人和Chebotar等人使用,在網(wǎng)絡(luò)預(yù)訓(xùn)練階段后,直接在真實(shí)的機(jī)器人硬件上學(xué)習(xí)visuomotor策略。Gupta等人和Kumar等人使用GPS作為機(jī)器人手模型的學(xué)習(xí)控制器?;趦r(jià)值的方法已經(jīng)被使用,例如Gu等人使用NAF直接在機(jī)器人上學(xué)習(xí)一門打開的任務(wù),Popov等人演示了如何使用DPG的分布式變量有效地解決堆碼問題。

處理數(shù)據(jù)需求的另一種策略是在模擬中訓(xùn)練,將學(xué)習(xí)的控制器轉(zhuǎn)移到真正的硬件上,或者用合成數(shù)據(jù)增強(qiáng)現(xiàn)實(shí)世界的訓(xùn)練。Rusu等研究了一個(gè)Jaco機(jī)器人手臂的簡(jiǎn)單的視覺運(yùn)動(dòng)策略,并使用進(jìn)步網(wǎng)絡(luò)將其轉(zhuǎn)移到現(xiàn)實(shí)中。Viereck等依靠深度來縮小現(xiàn)實(shí)差距。Tobin等人利用視覺變化來學(xué)習(xí)能夠傳輸?shù)浆F(xiàn)實(shí)的健壯的目標(biāo)檢測(cè)器;James等將隨機(jī)化與引導(dǎo)性學(xué)習(xí)相結(jié)合。Bousmalis等用模擬數(shù)據(jù)增強(qiáng)訓(xùn)練,學(xué)習(xí)掌握各種形狀的預(yù)測(cè)。

控制問題的成本函數(shù)和勘探策略對(duì)設(shè)計(jì)具有挑戰(zhàn)性,因此,一直以來演示不可或缺??梢允褂醚菔緛沓跏蓟呗?、設(shè)計(jì)成本函數(shù)、引導(dǎo)探索、增加訓(xùn)練數(shù)據(jù),或者組合起來使用。成本函數(shù)可以通過跟蹤目標(biāo)(如Gupta等)或通過逆RL(如Boularias,F(xiàn)inn等)或通過生成對(duì)抗式模仿學(xué)習(xí)來獲得。

在通過演示學(xué)習(xí)操作任務(wù)的情況下,此類方法本身就需要與演示相一致的狀態(tài)和操作空間。相比之下,我們的方法是學(xué)習(xí)端到端的可視化策略,而不依賴于演示操作。因此,因此,它可以利用演示的過程,當(dāng)原始的演示動(dòng)作是未知的或由不同的身體產(chǎn)生的。Pinto和Peng認(rèn)為從模擬到現(xiàn)實(shí)的轉(zhuǎn)換,應(yīng)分別聚焦于隨機(jī)化的視覺表象和機(jī)器人的動(dòng)力學(xué)。Pinto等人使用末端執(zhí)行器位置控制的視覺輸入不同的任務(wù)。這些現(xiàn)有的類同的研究都引入了我們的模型所使用的技術(shù)子集。這項(xiàng)工作是獨(dú)立于并行工程開發(fā)的,將幾種新技術(shù)集成到一個(gè)連貫的方法中。我們的實(shí)驗(yàn)結(jié)果表明,良好的性能來自于這些組合技術(shù)的協(xié)同作用。

3. 模型

本研究旨在為機(jī)器人控制任務(wù)學(xué)習(xí)深度視覺運(yùn)動(dòng)策略。該策略使用 RGB 攝像頭觀測(cè)結(jié)果和本體特征(proprioceptive feature)向量描述關(guān)節(jié)位置和角速度。這兩種感官模態(tài)在真實(shí)機(jī)器人上同樣可用,因此研究者進(jìn)行仿真訓(xùn)練,并將習(xí)得的策略在不修改的情況下遷移至機(jī)器人。圖 2 是模型概覽。深度視覺運(yùn)動(dòng)策略使用卷積神經(jīng)網(wǎng)絡(luò)編碼觀測(cè)像素,使用多層感知機(jī)編碼本體特征。這兩種模塊中的特征被級(jí)聯(lián)并傳輸至循環(huán) LSTM 層,然后輸出關(guān)節(jié)速度(控制)。整個(gè)網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練。研究者首先簡(jiǎn)要介紹了生成對(duì)抗模仿學(xué)習(xí)(GAIL)和近端策略優(yōu)化(PPO)的基礎(chǔ)知識(shí)。該模型基于這兩種方法擴(kuò)展而來,提升視覺運(yùn)動(dòng)技能。

圖 2. 模型概覽。模型核心是深度視覺運(yùn)動(dòng)策略,其采用攝像頭觀測(cè)結(jié)果和本體特征作為輸入,并輸出下一個(gè)關(guān)節(jié)速度。

4. 實(shí)驗(yàn)

本節(jié)展示了該方法可向視覺運(yùn)動(dòng)策略學(xué)習(xí)提供靈活的框架。研究者在六個(gè)控制任務(wù)中對(duì)該方法的性能進(jìn)行了評(píng)估(詳見圖 3)。視頻包含了定性結(jié)果。

圖 3. 實(shí)驗(yàn)中六項(xiàng)控制任務(wù)的可視化。左邊三列展示了六項(xiàng)任務(wù)在仿真環(huán)境中的 RGB 圖像。這些圖像對(duì)應(yīng)輸入視覺運(yùn)動(dòng)策略的實(shí)際像素觀測(cè)。右側(cè)一列展示了真實(shí)機(jī)器人執(zhí)行兩項(xiàng)色塊任務(wù)的表現(xiàn)。

研究者將 episode 平均返回值表示為訓(xùn)練迭代次數(shù)的函數(shù),如圖 4 所示。完整模型在六項(xiàng)任務(wù)中達(dá)到了最高的返回值。

圖 4. 論文提出的強(qiáng)化與模仿學(xué)習(xí)模型和基線學(xué)習(xí)效率的對(duì)比。該圖展示的是 5 次不同隨機(jī)種子運(yùn)行的平均值。所有策略使用同樣的網(wǎng)絡(luò)架構(gòu)和超參數(shù)(λ 除外)。

圖 5. 堆疊任務(wù)中的模型分析。左圖展示了從完整模型中移除每個(gè)單獨(dú)組件對(duì)性能的影響。右圖展示了模型對(duì)超參數(shù) λ 的敏感度,λ 調(diào)節(jié)強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的貢獻(xiàn)。

在圖 5a 中,研究者用多種配置訓(xùn)練智能體,從單個(gè)修改到修改整個(gè)模型。研究者發(fā)現(xiàn)這些缺失可分為兩類:學(xué)習(xí)堆疊的智能體(平均返回值大于 400)和僅學(xué)會(huì)提升的智能體(平均返回值在 200 和 300 之間)。結(jié)果表明從狀態(tài)中學(xué)習(xí)價(jià)值函數(shù)的混合 RL/IL 獎(jiǎng)勵(lì)和以目標(biāo)為中心的鑒別器特征在學(xué)習(xí)優(yōu)良策略的過程中發(fā)揮了重要作用。

圖 5b 展示了該模型在 λ 值在 0.3 到 0.7 之間的運(yùn)行效果,λ 值的大幅變化提供了 RL 和 GAIL 獎(jiǎng)勵(lì)的平衡混合。

結(jié)論:

在本文中,我們描述了一種通用的無模型深度強(qiáng)化學(xué)習(xí)方法,該方法用于從RGB攝像機(jī)圖像和使用關(guān)節(jié)速度控制的每一種形式操作的策略的端到端學(xué)習(xí)。我們的方法結(jié)合使用演示,通過生成的敵對(duì)模仿學(xué)習(xí)15和無模型的RL來實(shí)現(xiàn)對(duì)不同任務(wù)的有效學(xué)習(xí)和強(qiáng)大的泛化。此外,這種方法可以從狀態(tài)軌跡(沒有演示動(dòng)作)和鑒別器所看到的僅使用部分/特征化的演示相結(jié)合——這可以簡(jiǎn)化和增加數(shù)據(jù)收集過程中的靈活性,并促進(jìn)在非執(zhí)行的條件下的泛化(例如,可以通過一個(gè)不同的“主體”來收集演示,例如通過動(dòng)作捕捉的人演示程序)。在每項(xiàng)任務(wù)不到30分鐘的時(shí)間內(nèi),通過對(duì)模擬手臂的遠(yuǎn)程操作來收集演示。我們的方法集成了幾種新技術(shù),以利用模擬提供的靈活性和可伸縮性,例如獲取特權(quán)信息和使用大型RL算法。實(shí)驗(yàn)結(jié)果表明,該算法在復(fù)雜的仿真操作中具有一定的有效性,并取得了初步的成功。我們使用相同的策略網(wǎng)絡(luò)、相同的訓(xùn)練算法和相同的超參數(shù)來訓(xùn)練所有的策略。該方法利用了特定于任務(wù)的信息,特別是在選擇以對(duì)象為中心的特征時(shí),對(duì)鑒別器和RL獎(jiǎng)勵(lì)進(jìn)行了選擇。然而,在實(shí)踐中,我們發(fā)現(xiàn)這些特性的特性是直觀的,而我們的方法對(duì)于特定的選擇來說是相當(dāng)可靠的,因此在需要(有限的)先驗(yàn)知識(shí)的需求和可用于復(fù)雜任務(wù)的解決方案的一般性之間取得了良好的平衡。

為了充分挖掘機(jī)器人技術(shù)的潛力,我們必須面對(duì)現(xiàn)實(shí)世界的完全變化,包括對(duì)象外觀、系統(tǒng)動(dòng)態(tài)、任務(wù)語義等,因此我們將重點(diǎn)放在學(xué)習(xí)控制器上,以處理多個(gè)維度的任務(wù)變化。為了提高學(xué)習(xí)策略更加泛化,我們通過參數(shù)化、程序生成的3D對(duì)象和隨機(jī)系統(tǒng)動(dòng)力學(xué)增加了訓(xùn)練條件的多樣性。這導(dǎo)致了在模擬和仿真和現(xiàn)實(shí)世界之間的某些領(lǐng)域不一致的情況下,在模擬的大變化中表現(xiàn)出穩(wěn)健性的策略。

仿真是我們方法的中心。在仿真中進(jìn)行的訓(xùn)練可以解決許多對(duì)機(jī)器人技術(shù)的實(shí)際挑戰(zhàn),比如獲取用于獎(jiǎng)勵(lì)的狀態(tài)信息、高樣本復(fù)雜性和安全考慮等。模擬訓(xùn)練也允許我們使用模擬狀態(tài)來促進(jìn)和穩(wěn)定訓(xùn)練(即通過向值函數(shù)提供狀態(tài)信息),在我們的實(shí)驗(yàn)中,這對(duì)于學(xué)習(xí)良好的視覺運(yùn)動(dòng)策略非常重要。然而,盡管我們的方法在培訓(xùn)過程中利用了這些特定信息,它最終會(huì)產(chǎn)生只依賴于手臂的視覺和本體感受信息的策略,因此可以應(yīng)用在真正的硬件上。

在真實(shí)的機(jī)器人上執(zhí)行這些策略表明,在模擬和真實(shí)硬件之間仍然存在著相當(dāng)大的領(lǐng)域差距。轉(zhuǎn)移會(huì)受到視覺差異的影響,也會(huì)受到手臂動(dòng)力學(xué)和環(huán)境物理性質(zhì)的影響。當(dāng)在真正的機(jī)器人上運(yùn)行仿真策略時(shí),這會(huì)導(dǎo)致一定程度的性能下降。不過,我們?cè)诂F(xiàn)實(shí)世界中進(jìn)行的實(shí)驗(yàn)已經(jīng)證明,采用RL訓(xùn)練的策略執(zhí)行像素到關(guān)節(jié)速度的控制,零發(fā)射的sim2real傳輸可以取得初步成功。

我們已經(jīng)證明,結(jié)合強(qiáng)化和模仿學(xué)習(xí)可以顯著提高我們訓(xùn)練系統(tǒng)的能力,這些系統(tǒng)能夠從像素中解決具有挑戰(zhàn)性的靈巧操作任務(wù)。我們的方法實(shí)現(xiàn)了機(jī)器人技術(shù)學(xué)習(xí)流水線的三個(gè)階段:首先,我們收集了少量的演示數(shù)據(jù)來簡(jiǎn)化探索問題;其次,我們依靠物理仿真來進(jìn)行大規(guī)模的分布式機(jī)器人訓(xùn)練;第三,我們對(duì)現(xiàn)實(shí)應(yīng)用進(jìn)行了sim2real傳輸。在未來的工作中,我們尋求提高學(xué)習(xí)方法的樣本效率,并利用實(shí)際經(jīng)驗(yàn)來縮小政策轉(zhuǎn)移的現(xiàn)實(shí)差距。

 
舉報(bào) 收藏 打賞 評(píng)論 0
 
更多>同類資訊
推薦圖文
推薦資訊
點(diǎn)擊排行
網(wǎng)站首頁  |  付款方式  |  關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  版權(quán)隱私  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào) 營業(yè)執(zhí)照  |  粵ICP備18059797號(hào)-1
×