导读 本文是RALwithIROS2022入选论文LearningCategoryLevelGeneralizableObjectManipulationPolicyviaGenerativeAdversarialSelfImitationLearningfromDemonstrations的解读。该论文由北京大学前沿计算研究中心王鹤课题组完成,文章研究了在ManiSkill〔1〕物体操纵数据集上的类级别泛化的物体操纵问题,并提出了一些基于生成对抗演示自模仿学习的算法用于解决该类问题。 论文地址: https:arxiv。orgabs2203。02107 项目主页: https:shenhhao。github。ioCategoryLevelManipulation 01hr引言 在真实世界的复杂情景下,可泛化的物体操纵对于智能多功能机器人而言是十分重要的技能。尽管近来强化学习(reinforcementlearning)取得了一定的进展,对于几何上多样化的铰接物体(articulatedobject)仍难以训练出可泛化的操纵策略。 在这项工作中,我们假定没有提供密集奖励(densereward),而是仅有终点奖励(terminalreward),以此背景下使用模仿学习来实现类别泛化的物体操纵策略的学习。对于此类富有挑战的任务设定,以生成对抗模仿学习(GAIL)〔2〕结合SoftActorCritic(SAC)〔3〕为基线算法,我们提出了一些会使模仿学习算法失效并且阻碍对于未知实例泛化的关键问题:在生成对抗的方法下多种训练实例一起学习会导致判别器的奖励减少至0,并且使模仿学习停滞;对于不同物体的演示由不同策略所生成,故用单一策略难以模仿;在训练集上策略可能会偏重部分训练实例的成功,导致策略有倾向性而不能泛化到未知实例。 我们提出了3个改进基线算法的方法:生成对抗演示自模仿学习(GenerativeAdversarialSelfImitationLearningfromDemonstrations),判别器的逐渐增强(ProgressiveGrowingofDiscriminator)与类级别的实例平衡专家缓冲器(CategoryLevelInstanceBalancing(CLIB)ExpertBuffer),从而精确地解决了这些问题。在ManiSkill〔1〕物体操纵数据集上的实验和后续的消融实验验证了每一种方法的有效性以及对于类级别泛化能力的提升。 02hr方法介绍 图1。方法流程图,我们的方法基于GAIL结合SAC,橙色部分为在此之上的改进方法。 图2。逐渐增强判别器的网络结构 判别器的逐渐增强 ProgressiveGrowingofDiscriminator 如图2所示,在训练过程中,判别器会由一个简单的初始结构逐步过渡到一个更复杂的结构以逐步提升其判别能力。我们采用了〔1〕中的PointNet结构作为其初始网络结构,采用了〔1〕中的PointNetTransformer结构作为最终结构;图2中的在训练过程中将线性地从0变化到1,从而实现结构的过渡与判别器的逐渐增强,解决了判别器在训练开始时过强的问题且实现判别器与策略的同步增长。 生成对抗演示自模仿学习 GenerativeAdversarialSelfImitationLearningfromDemonstrations 对于在GAIL中奖励会随训练下降,我们结合了GASIL〔4〕和SILfD〔5〕,在专家缓冲器(expertbuffer)中以专家演示初始化,并且在训练过程中逐步用自我策略生成的成功轨迹填充。采用此方法后,专家缓冲器中的轨迹将逐步由自我策略生成的轨迹填充,使得轨迹数据分布更加均衡且解决了奖励函数减少至0的问题。 类级别的实例平衡专家缓冲器 CategoryLevelInstanceBalancing(CLIB)ExpertBuffer 在使用了自模仿学习后,我们将专家缓冲器平均分为若干槽位,分布对应于每个训练实例,且以每个训练实例对应的专家演示初始化。在训练的过程中,成功的轨迹将被放入该实例的槽位中,而不是所有的轨迹放在一起。通过这种方式,我们可以控制专家缓冲器中所有成功轨迹数量的均衡,避免了某些实例轨迹占比过高从而使得模仿学习出策略带有偏向性的问题。 图3。算法伪代码 03hr实验展示 我们的方法(MethodV)在ManiSkillBenchmark〔1〕上极大地提升了基线算法GAIL(MethodI)〔2〕的效果,在训练集与验证集上的成功率分别提高了13和18。详细的实验结果见下表。进一步地,我们的消融实验验证了每一项改进对于成功率和泛化能力的提升,我们还对每一项改进做了详细的分析,详细分析与结果请参见论文。 表1。主要实验结果 同时,我们在有人工设计的环境奖励的情况下验证了我们的方法。我们的方法在有环境奖励的情况下,成功率分别在训练集与验证集上超出了基线算法7,进一步说明了该算法的适用性。在表2中使用GAILDenseReward的方法为我们在之前ManiSkill2021挑战赛无额外标注赛道获得冠军的方法(详见:王鹤团队获ICLR2022机器人ManiSkill挑战赛无额外标注赛道冠军)。 表2。使用密集奖励的附加实验 04hr结语 本文首次通过从演示中生成对抗自模仿学习的方法来解决类别级物体操作问题,在GAIL基线算法之上,提出了几项提升效果的重要方法,包括将GAIL与selfimitationlearningfromdemonstrations相结合、progressivegrowingofdiscriminator和categorylevelinstancebalancingbuffer。我们的消融实验进一步验证了每一项改进可以使成功率和泛化能力显著地提高。 引用文献 〔1〕MuT,LingZ,XiangF,etal。Maniskill:Generalizablemanipulationskillbenchmarkwithlargescaledemonstrations〔J〕。arXivpreprintarXiv:2107。14483,2021。 〔2〕HoJ,ErmonS。Generativeadversarialimitationlearning〔J〕。Advancesinneuralinformationprocessingsystems,2016,29。 〔3〕HaarnojaT,ZhouA,AbbeelP,etal。Softactorcritic:Offpolicymaximumentropydeepreinforcementlearningwithastochasticactor〔C〕Internationalconferenceonmachinelearning。PMLR,2018:18611870。 〔4〕GuoY,OhJ,SinghS,etal。Generativeadversarialselfimitationlearning〔J〕。arXivpreprintarXiv:1812。00950,2018。 〔5〕PshikhachevG,IvanovD,EgorovV,etal。SelfImitationLearningfromDemonstrations〔J〕。arXivpreprintarXiv:2203。10905,2022。 IROS IEEERSJInternationalConferenceonIntelligentRobotsandSystems(IEEEIROS),即智能机器人与系统国际会议,是世界机器人和智能系统领域中最著名、影响力最大的顶级学术会议之一,在世界范围内每年召开一次。IROS2022以共生社会的具体化人工智能为主题,将于2022年10月2327日在日本京都举行。 图文沈昊万维康 EmbodiedPerceptionandInteraCtion(EPIC)