IROS2022基于生成对抗演示自模仿学习的类级别泛化物体操

商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

IROS2022基于生成对抗演示自模仿学习的类级别泛化物体操

　　导读
　　本文是RALwithIROS2022入选论文LearningCategoryLevelGeneralizableObjectManipulationPolicyviaGenerativeAdversarialSelfImitationLearningfromDemonstrations的解读。该论文由北京大学前沿计算研究中心王鹤课题组完成，文章研究了在ManiSkill〔1〕物体操纵数据集上的类级别泛化的物体操纵问题，并提出了一些基于生成对抗演示自模仿学习的算法用于解决该类问题。
　　论文地址：
　　https：arxiv。orgabs2203。02107
　　项目主页：
　　https：shenhhao。github。ioCategoryLevelManipulation
　　01hr引言
　　在真实世界的复杂情景下，可泛化的物体操纵对于智能多功能机器人而言是十分重要的技能。尽管近来强化学习（reinforcementlearning）取得了一定的进展，对于几何上多样化的铰接物体（articulatedobject）仍难以训练出可泛化的操纵策略。
　　在这项工作中，我们假定没有提供密集奖励（densereward），而是仅有终点奖励（terminalreward），以此背景下使用模仿学习来实现类别泛化的物体操纵策略的学习。对于此类富有挑战的任务设定，以生成对抗模仿学习（GAIL）〔2〕结合SoftActorCritic（SAC）〔3〕为基线算法，我们提出了一些会使模仿学习算法失效并且阻碍对于未知实例泛化的关键问题：在生成对抗的方法下多种训练实例一起学习会导致判别器的奖励减少至0，并且使模仿学习停滞；对于不同物体的演示由不同策略所生成，故用单一策略难以模仿；在训练集上策略可能会偏重部分训练实例的成功，导致策略有倾向性而不能泛化到未知实例。
　　我们提出了3个改进基线算法的方法：生成对抗演示自模仿学习（GenerativeAdversarialSelfImitationLearningfromDemonstrations），判别器的逐渐增强（ProgressiveGrowingofDiscriminator）与类级别的实例平衡专家缓冲器（CategoryLevelInstanceBalancing（CLIB）ExpertBuffer），从而精确地解决了这些问题。在ManiSkill〔1〕物体操纵数据集上的实验和后续的消融实验验证了每一种方法的有效性以及对于类级别泛化能力的提升。
　　02hr方法介绍
　　图1。方法流程图，我们的方法基于GAIL结合SAC，橙色部分为在此之上的改进方法。
　　图2。逐渐增强判别器的网络结构
　　判别器的逐渐增强
　　ProgressiveGrowingofDiscriminator
　　如图2所示，在训练过程中，判别器会由一个简单的初始结构逐步过渡到一个更复杂的结构以逐步提升其判别能力。我们采用了〔1〕中的PointNet结构作为其初始网络结构，采用了〔1〕中的PointNetTransformer结构作为最终结构；图2中的在训练过程中将线性地从0变化到1，从而实现结构的过渡与判别器的逐渐增强，解决了判别器在训练开始时过强的问题且实现判别器与策略的同步增长。
　　生成对抗演示自模仿学习
　　GenerativeAdversarialSelfImitationLearningfromDemonstrations
　　对于在GAIL中奖励会随训练下降，我们结合了GASIL〔4〕和SILfD〔5〕，在专家缓冲器（expertbuffer）中以专家演示初始化，并且在训练过程中逐步用自我策略生成的成功轨迹填充。采用此方法后，专家缓冲器中的轨迹将逐步由自我策略生成的轨迹填充，使得轨迹数据分布更加均衡且解决了奖励函数减少至0的问题。
　　类级别的实例平衡专家缓冲器
　　CategoryLevelInstanceBalancing（CLIB）ExpertBuffer
　　在使用了自模仿学习后，我们将专家缓冲器平均分为若干槽位，分布对应于每个训练实例，且以每个训练实例对应的专家演示初始化。在训练的过程中，成功的轨迹将被放入该实例的槽位中，而不是所有的轨迹放在一起。通过这种方式，我们可以控制专家缓冲器中所有成功轨迹数量的均衡，避免了某些实例轨迹占比过高从而使得模仿学习出策略带有偏向性的问题。
　　图3。算法伪代码
　　03hr实验展示
　　我们的方法（MethodV）在ManiSkillBenchmark〔1〕上极大地提升了基线算法GAIL（MethodI）〔2〕的效果，在训练集与验证集上的成功率分别提高了13和18。详细的实验结果见下表。进一步地，我们的消融实验验证了每一项改进对于成功率和泛化能力的提升，我们还对每一项改进做了详细的分析，详细分析与结果请参见论文。
　　表1。主要实验结果
　　同时，我们在有人工设计的环境奖励的情况下验证了我们的方法。我们的方法在有环境奖励的情况下，成功率分别在训练集与验证集上超出了基线算法7，进一步说明了该算法的适用性。在表2中使用GAILDenseReward的方法为我们在之前ManiSkill2021挑战赛无额外标注赛道获得冠军的方法（详见：王鹤团队获ICLR2022机器人ManiSkill挑战赛无额外标注赛道冠军）。
　　表2。使用密集奖励的附加实验
　　04hr结语
　　本文首次通过从演示中生成对抗自模仿学习的方法来解决类别级物体操作问题，在GAIL基线算法之上，提出了几项提升效果的重要方法，包括将GAIL与selfimitationlearningfromdemonstrations相结合、progressivegrowingofdiscriminator和categorylevelinstancebalancingbuffer。我们的消融实验进一步验证了每一项改进可以使成功率和泛化能力显著地提高。
　　引用文献
　　〔1〕MuT，LingZ，XiangF，etal。Maniskill：Generalizablemanipulationskillbenchmarkwithlargescaledemonstrations〔J〕。arXivpreprintarXiv：2107。14483，2021。
　　〔2〕HoJ，ErmonS。Generativeadversarialimitationlearning〔J〕。Advancesinneuralinformationprocessingsystems，2016，29。
　　〔3〕HaarnojaT，ZhouA，AbbeelP，etal。Softactorcritic：Offpolicymaximumentropydeepreinforcementlearningwithastochasticactor〔C〕Internationalconferenceonmachinelearning。PMLR，2018：18611870。
　　〔4〕GuoY，OhJ，SinghS，etal。Generativeadversarialselfimitationlearning〔J〕。arXivpreprintarXiv：1812。00950，2018。
　　〔5〕PshikhachevG，IvanovD，EgorovV，etal。SelfImitationLearningfromDemonstrations〔J〕。arXivpreprintarXiv：2203。10905，2022。
　　IROS
　　IEEERSJInternationalConferenceonIntelligentRobotsandSystems（IEEEIROS），即智能机器人与系统国际会议，是世界机器人和智能系统领域中最著名、影响力最大的顶级学术会议之一，在世界范围内每年召开一次。IROS2022以共生社会的具体化人工智能为主题，将于2022年10月2327日在日本京都举行。
　　图文沈昊万维康
　　EmbodiedPerceptionandInteraCtion（EPIC）

世界级一体化新石化基地全面投产2月27日，随着世界单套规模最大的80万吨年苯乙烯装置顺利投产，中国石油广东石化2000万吨年炼油、120万吨年乙烯、260万吨年对二甲苯炼化一体化项目打通全流程并全部产出合格……股神巴菲特44年来最短股东信，说了些啥澎湃新闻记者孙铭蔚北京时间2月25日晚间，股神沃伦巴菲特发布了一年一度的股东信。巴菲特视觉中国资料图每年2月，巴菲特都会写一封信来回顾过去一年他投资的收获和教……不得不说，今年的裤子还是露脚踝更好看，尤其适合小个子今年春天的衣橱里一定要备一条时髦百搭的露踝裤，露出纤细的脚踝线条可以有效的在视觉上起到拉长腿部比例的效果，显高不挑人，就算是个子娇小的姐妹们驾驭起来也毫无压力。这篇文章就……达芬奇DaVinciResolveStudio18软件下载件达芬奇的用处是什么？达芬奇18。0版剪辑软件是一款视频处理工具，这是一款非常专业的软件，里面的许多功能都是非常的强大。设计师常用的一些软件里，必然少不了这个。DaVinciRe……被三木惊艳到了，无龄感穿搭知性得体，不管30岁50岁都能穿新年想要换一种穿搭风格，大家一定要参考一下三木博主的搭配方式！通过穿搭思路的灵活运用和基础款单品的搭配组合，毫不费力打造出兼具功能性和时尚感的高级范儿穿搭。这篇文章就来为……欧文要价两个亿，蔡老板愿不愿意进行一次豪赌有消息人士透露，目前欧文正寻求与篮网达成一份最大金额为4年2亿美元的续约合同，这个消息绝不是空穴来风。因为欧文的经纪人，也就是他的继母，也向媒体透露，他们已经就此事联系了……不屈顽强导演惊天大逆转！穆雷诠释巨头何以成为巨头5小时45分钟！雷sir完成了一场不可思议的逆转！一场漫长的马拉松鏖战，比赛结束时钟已经指向了后半夜。饶是最忠实的球迷能坚持到此时的恐怕也为数不多，能从头看到尾的更是不可……40岁左右的女人，过年别再烫奶奶卷！试试这3款发型，特洋气很多人都说40岁是一个女人的分水岭，40岁之前的我们还可以装年轻扮嫩，但过了40岁以后，我们的气质就会越发成熟，这时候就算你扮嫩，也很容易暴露你实际的年龄感，但就算如此，到了4……发达经济体央行面临艰难抉择2022年，发达经济体央行的货币政策成为左右全球经济形势的关键变量。面对高通胀带来的持续刺痛，过去一年中各国央行货币政策变化之剧烈近数十年罕见。展望2023年，发达经济体……专访刘殿座亚冠先争取小组出线珍惜为国征战的每一天记者鲁蜜报道上赛季中超，武汉三镇夺得了冠军，对于中超新军而言，夺冠的经历是新鲜而难忘的。不过，对于刘殿座而言，他的足球生涯里已经有过这样的经历，再次拿到冠军奖杯，值得欣喜，但是……国庆探访河南最美的古塔安阳文峰塔（Day12，10月12日）安阳文峰塔是我们此次国庆河南之行期间印象最深刻的几座佛塔之一。文峰塔总平面图首先是高：38米的身高，开车行驶在安阳市文峰路上远远就能看得到它。文峰路上远观文峰……一入孤美深似海孤独的美食家第二季酣畅淋漓美食之旅孤独的美食家，第二季，全新到来在经过了最为经典的第一季的洗礼你对于日本文化是不是又有了全新的认识呢是不是发现日本料理的精髓远不至于寿司，味噌汤那样简单呢……

<<<<<<－>>>>>>

小时候，妈妈牵着我姐俩翻山越岭去监狱探监，我总是感到无比自豪我长到四十多岁，从小到大，从来没有在人前提起过这段经历。哪怕是长大后走进社会，进了单位，也没有向任何人提起自己曾是劳改犯的女儿，曾经经常被妈妈牵着手，走进一个叫监狱的地方……印度，全球投资的下一个亮点？2022年，全球局势出现了前所未有的变动。很多人在讨论，中国在全球格局中的位置正在发生怎样的变化？就拿我们最关心的几个国家，印度、美国、俄国来说。有观点认为，印度正在成为全球投……31省份2023年提前批专项债额度合计2。19万亿，相比上年21世纪经济报道记者杨志锦上海报道截至2月10日，31个省份都披露了预算报告，其中都公布了提前批地方债额度的情况。据21世纪经济报道记者梳理，31省份获得的提前批专项债、……倒计时10天！第四届巴中有礼文旅商品创意大赛您为持续挖掘利用巴中特色文化旅游资源，加大文化旅游商品研发力度，提高市场主体创新创意能力，由巴中市人民政府主办的第四届巴中有礼文化旅游商品创意大赛正式启动，现面向全国征集参赛作品……立灯官抹花谜这是专属古城的专属年味央广网黑河2月5日消息（记者庞淼通讯员张思洋）2月5日是农历正月十五，黑龙江省黑河市爱辉区瑷珲镇游人如织，热闹非凡，第11届癸卯兔年瑷珲上元节在这里隆重举行。大红灯笼高高挂起，……研究发现某些工作与流产失孕风险的增加有关在对20102019年韩国180多万就业和非就业孕妇信息的分析中，某些职业与较高的流产和死胎风险有关。对于这项发表在《职业健康杂志》上的研究，调查人员计算了三种不良结果的风险：……龙洋王嘉宁元宵晚会获好评，明年继续主持央视春晚的可能性很大在刚过去不久的元宵晚会上，王嘉宁顺畅了很多，可能经过春晚的历练，让人成熟不少。其实没有董卿李思思这些珠玉在前，龙洋，王嘉宁马凡舒当春晚主持人也很不错。只不过董卿作为曾经的……苹果为第57届超级碗造势，在Twitter购买新AppleMIT之家2月7日消息，苹果于去年宣布成为超级碗中场秀（SuperBowlHalftimeShow）的最新赞助商，并邀请了蕾哈娜（Rihanna）出场表演。第57届超级碗将……平托穆里尼奥没有要求和主席面谈，球队不要因欧冠资格感到压力直播吧2月9日讯近来有传闻称如果罗马没能获得下赛季的欧冠参赛资格，主帅穆里尼奥就会在今夏离开。罗马总经理平托在接受采访时谈到了这个话题。平托首先表示：我和穆里尼奥有着良好……1998年，日本艺人参加真人秀，全裸在有摄像头的房间内，结果1998年，日本艺人茄子被邀请参加真人秀节目，却被要求全裸待在房间抽中100万日元奖品，才被放出来，结果如何？茄子真名浜津智明。节目录制之前，节目组跟茄子说，他们录播制作……李子柒归来张兰忙带货，螺蛳粉和酸辣粉高光背后的冷思考在螺蛳粉、酸辣粉的强势引领下，方便粉丝市场正步入高速发展期。红餐品牌研究院近期推出的《中国米粉品类发展报告2022》显示，在米粉店推荐菜前十位中，酸辣粉、螺蛳粉分别位列榜……专题系列中科院金属所何杰研究员相分离非晶合金研究进展与展望非晶合金原子排列具有短程有序、长程无序的特性。相对晶态合金来说，非晶合金展现出高弹性极限、低弹性模量、良好的耐腐蚀和耐磨损、超热塑性变形能力、优异的磁性能等特点，在机械、电子、……

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网