SHAIL带安全觉察的城市环境自动驾驶分级对抗模仿学习

商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

SHAIL带安全觉察的城市环境自动驾驶分级对抗模仿学习

　　arXiv上2022年4月上传论文SHAIL：SafetyAwareHierarchicalAdversarialImitationLearningforAutonomousDrivinginUrbanEnvironments，作者来自斯坦福大学和德国KIT。
　　生成模仿学习是通过现实世界和模拟决策来自动制定策略的一种方法。以前生成模仿学习应用于自动驾驶策略的工作，侧重于学习简单设置的低级控制器。然而，为扩展到复杂设置，许多自动驾驶系统，将固定、安全、基于优化的低级控制器与能选择适当任务和相关控制器的高级决策逻辑相结合。
　　本文试图用SafetyAwareHierarchicalAdversarialImitationLearning（SHAIL）来弥合这种复杂性差距，SHAIL是一种学习高级策略的方法，以带策略（onpolicy）模仿低级驾驶数据的方式从一组低级控制器实例中进行选择。该文引入一个城市环形交叉路口模拟器，该模拟器用来自在伯克利开源Interaction数据集的真实数据来控制非自车。
　　实现代码可见在https：github。comsislInteractionImitation。
　　下图是示意图：通过SHAIL，自车学会从一组安全高级选项中进行选择，Interaction数据集所派生的复杂驾驶环境进行导航。这里可学习的只有低级专家状态和动作。
　　最优决策一般在MDP环境定义，包括状态空间、动作空间和状态转移函数，以及奖励函数、初始状态分布和discount系数。MDP的策略通过动作影射状态到一个分布，一个最优策略最大化累计discounted奖励。在强化学习设置中，确切的转换和奖励函数T和R是未知的，但可以与环境交互，接收下一状态和奖励生成的样本。
　　在模仿学习设置中，不接收奖励信号，而是依赖于与环境交互的专家以轨迹推出的形式提供数据。模仿学习问题可以看作是专家和学习者分布之间的时刻匹配（momentmatching）问题，方法可以大致描述为以下几种：无策略（offpolicy）的Q价值时刻，带策略的Q价值时刻或奖励时刻。
　　在模仿学习设置中学习策略的最直接方法是通过行为克隆（BC），其中受监督的学习者将状态回归动作。这种方法在自动驾驶系统中有着悠久的历史。行为克隆在测试过程中会有错误的累积，因为智体最终会进入训练期间未见过的状态，这种现象通常被称为协变量移位（covarianceshift）。
　　在某策略下的状态动作占用度量，是访问状态和动作的（非规范化）discounted平稳分布。同样地，也可以定义专家策略的状态行动占用度量。一种观点将模仿学习表述为专家和学习的占用度量之间的时刻匹配问题，其通过最小化相关分布之间的一些f散度来实现。在带策略奖励时刻匹配设置中，这个目标（objective）可以写成带策略生成器和观测动作鉴别器之间的双人博弈：
　　这个优化方法可以在优化鉴别器参数的discriminatorgradientascent步和优化随机策略的policygradientascent步之间切换，后者可以看成是带奖励信号的强化学习。而两个步骤都可以用蒙特卡洛方法（和一个replaybuffer）估计其期望。
　　首先把前面目标函数定义为一个分层找到生成状态和动作的一个策略：将占用度量在选项扩展，这些选项在执行期间会引向状态s和动作a，以及该选项开始执行的初始状态。扩展在时间开始执行选项o的初始状态sh，在该初始状态下，在时间t低级的状态s和动作a可以被观察：
　　应用这个分层占用度量表征，可以把度量匹配目标函数定义为一种分层策略数据生成的形式：
　　这里鉴别器更新保持不变，而生成器更新采用策略梯度算法，其中新的想象高级奖励累积执行该选项discounted低级想象鉴别器奖励。
　　许多实际策略梯度的实现，都依赖于固定大小的动作空间。基于此，这里仅限于一个选项集，其中任何选项都可以从每个状态做初始化。就安全性而言，这种假设可能非常有限。通常，有来自不同状态的受限选项信息（例如，Accelerate选项不应从红灯中获取）。此外，也许能够对不同控制器的安全性进行预测。例如，通过控制器的可达性（reachability）公式严格去做，或者通过场景理解更宽松地完成（例如，由于有车辆穿过十字路口，因此转弯可能不安全）。SHAIL设计一个在选项安全性包含敏感性的高级选项选择（optionselection）策略，改进了前面的分层对抗模仿学习（hierarchicaladversarialimitationlearning）公式。
　　假设智体可以推断来自不同状态不同选项的安全性或可用性，以此纳入安全意识。该文引入一个二进制随机变量z，它预测低级控制器的安全性或可用性，表示选项o从高级状态s执行时是安全的概率。这样设计选项就可以根据此安全预测将控制传递回高级选项的选择器。
　　基于此控制器安全性，可以设计高级控制器：
　　此高级控制器根据选项的安全预测重新加权（或掩码）选项概率。此方案需要至少一个具有非零安全概率的选项（例如，永久的安全控制器），否则这个高级策略将不表示在控制器的有效分布。另外，要学习有用选项的选择器，其应该具有一些在不同初始化状态下成立的语义意思。
　　通过策略梯度学习具有此策略的选项选择器，需要将选项启动期间看到的安全概率存入replaybuffer中。
　　Interaction仿真器在https：github。comsislInteractionSimulator，是一个开源OpenAIGym仿真器，取Interaction数据集的数据。仿真器本身根据Interaction数据集中记录的数据，即车辆路径和生成时间，并允许控制场景中一个或所有智体做加速。如果仅控制自车，则非自车的策略将从数据集中场景重放。
　　如图所示是SHAIL与环境交互时学到的策略在单个时间步长的情况：自车可以获得自己的运动状态和类似激光雷达、最多可以包括五辆周围车辆的相对状态信息。
　　实验中专注于单一智体的控制，允许策略确定自车沿其轨道加速。当车辆离开现场时，模拟将终止。自车遵循一个双积分器转换模型（doubleintegratortransitionmodel）沿着其记录的路径移动，而非自车则遵循其记录的轨迹。
　　实验中和其他方法，即GenerativeAdversarialImitationLearning（GAIL），还有行为克隆、IDM和专家模型（interaction数据集），进行比较。
　　SHAIL的高级控制器从一组选项中进行选择，这些选项针对特定未来时间的特定速度。每个选项的低级控制器命令固定加速度，车辆在所需时间可达到所需的速度。安全预测器返回一个二进制指示器，用于指示如果该选项保持其速度，是否会与其他车辆碰撞。因此，该实验的安全层类似于确定性规划安全层（deterministicplanningsafetylayer）。此外，重写最大减速选项，使其始终有效，成为默认的安全选项HardBrake。同样，我们使用Ho和Ermon以及PPO的目标来衡量政策梯度。这里额外学习了一个没有安全层或者选择早终止（earlytermination）的SHAIL版本，即HAIL。
　　实验集中在环形交叉路口的模型性能上，这是自动驾驶导航惯常的棘手场景。有两个实验：第一个实验（ID）在同一环境训练和测试模型，该环境仅从第一个轨道文件中选择车辆，此实验目的是比较绝对潜在模型性能；第二个实验（OOD）选择做训练和验证的环境，从场景记录14中随机选择车辆，并在场景5上报告指标。这种OOD测试评估模型在未见过车辆数据上的表现，尽管仍然在相同的驾驶环境中运行。在这两个实验中，超参（例如模型架构、选项集等）都是选择训练环境中产生最高成功率的进行优化。

53投101分！感谢东契奇，感谢塔图姆，你们逼出了一个NBA本赛季有多个年轻人打出了炸裂级表现，其中以东契奇、塔图姆的表现最为耀眼，很多人都说本赛季的MVP可能在这2人中产生。东契奇目前场均能轰下34。3分8。7板8。1助攻2抢断0。7……咳嗽（痰热郁肺证）中医之自我辩证之四咳嗽是指肺失肃降，肺气上逆作声，咳出痰液而言，为肺系疾病的主要证候之一。分别言之，有声无痰为咳，有痰无声为嗽，一般多为痰声并见，难以截然分开，故以咳嗽并称。咳嗽既是独立性的病证……听说人生有三苦放不下忘不了舍不得放不下人生有很多放不下的人和事，有太多的羁绊和遗憾，所以很多人总是做不到洒脱。昨天和朋友聊天，他说希望俄罗斯挑起第三次世界大战，这样普通人才有发展的机会。我说……有中国公民在伊朗因拍摄不当视频和敏感设施被判刑，中国使馆提醒据中国驻伊朗大使馆消息，近期，到伊朗临时出差或旅游的中国公民逐渐增多。使馆注意到，有的自媒体博主自曝感染新冠肺炎后仍坚持旅行，有的因围观和拍摄伊朗社会治安事件而被伊警方扣押。去……临阵换将！阿莱士桑德罗因伤退出巴西队，蒂特补招雷南洛迪在早先公布的巴西队大名单中，主教练蒂特征召了特莱斯和阿莱士桑德罗这两名左后卫，可在集训开始前，巴西队不得不临阵换将据巴西足协透露：尤文边后卫阿莱士桑德罗因左大腿肌肉拉伤退出集训……莫桑石十字架项链的含义你知道吗？颈链是一种很常见的首饰，各种各样的颈链更是比比皆是。想必大家都看到过十字架项链，但十字架项链的含义是什么呢？十字架是远古传说就已存在的象征物，因而十字架项链的含义也多种多……每日元速递丨海尔智家官宣数字人AYAYI和锘亚京东方布局元宇01。中移动跨元宇宙物品处理专利公布，可实现跨虚拟世界交易据天眼查显示，咪咕文化科技有限公司、中国移动通信集团有限公司跨元宇宙物品处理方法、装置、设备和存储介质专利公布。……莫科快哭了，四川男篮顶级中锋状态下滑，他才30岁就将离开CB莫科快哭了，四川男篮顶级中锋状态下滑，他才30岁就将离开CBA？CBA新赛季已经开赛一周有余，从最近五轮比赛的赛果基本上对各支球队也有了一个新的认识，就整个积分榜来说，除了上海……入伏后喝什么茶好今天入伏，入伏后喝什么茶好？入伏后喝什么茶有讲究吗？为什么反而建议三伏天喝一点发酵茶？最近全国的天气太疯狂了，很多温度都是到了38度，局部的室外温度有的是50多度，达到了……34岁李晓霞正式走马上任！新马尾造型显年轻，越来越有女人味近日，让国人引以为傲的国乒再度传来一个好消息，前国乒大满贯得主、原女队队长李晓霞被赋予了新的使命。在刘国梁和中国乒协的推举下，李晓霞被国际乒联聘为了专家，加入到了其下属的世界排……难怪饭店的凉拌海带好吃，原来有窍门，教做法，爽脆味道香说起大众都喜欢的凉拌菜，凉拌海带必定是其中一种。海带清爽且自带鲜味，适合的烹饪方式很多，不管是烹煮还是煎炒，都可口美味，春节买年货的时候，实惠好吃的海带几乎是一个必选项。小时候……队内最高薪水不超过2000万美元，这5支球队誓要抢文班亚马？NBA季后赛开打已3个比赛日，随着76人和湖人两连败，登顶东西部班长的席位，其他几支专业摆烂球队就坐不住了。先说下联盟的薪水王，自然是上赛季冠军勇士队的史蒂芬库里，他这个……

<<<<<<－>>>>>>

以更科学方式教育引导下一代金台随笔教育必须遵循基本规律。基础教育是全社会的事业，需要学校、家庭、社会密切配合一段时间以来，多地医院依托心理科室开设学习困难门诊，引发社会关注。不少家长带孩子前来问诊，有时甚……17个中心城市3月网约车订单合规率超80据网约车监管信息交互系统统计，截至3月31日，全国共有307家网约车平台公司取得网约车平台经营许可，环比增加4家，各地共发放网约车驾驶员证522。9万本、车辆运输证225万本，……为什么韩国的剧情片那么好看，因为宋康昊就不会给宋仲基做配角为什么韩国的剧情片那么好看，因为，宋康昊就不可能给宋仲基做配角。而我们的中生代和老戏骨却给小鲜肉做配角，080岁的都爱看小鲜肉？前年出了一部电视剧，叫《庆余年》，中国电影……啊，你要我穿男人内裤？初夏的一个下午，老公出去打牌去了，我窝在床上玩手机。婆婆抱着一堆衣服走了进来：小玉，你看，这些都是你老公的衣服。我很纳闷：是嘛？我怎么没见他穿过呢？婆婆说：可能是小了吧，……26项铁路公路地铁机场工程获批，总投资3645亿元！（附清单据基建通大数据（cnsuido01）统计，2023年3月份，累计共有约26项重大铁路、公路、城轨交通、机场项目可研报告、项目核准、项目用地、初步设计、施工图设计、环评报告等获得……小个子女生日常通勤怎样选？博主这10套造型，让我开了眼界在正式进入正题前需要说明一下，这篇文章主要适合小个子女生借鉴，155cm160cm左右的女生借鉴价值最高，150155cm、160165cm之间也能参考。但身高低于或者超……高血脂？送你一张降脂泄浊方，破血行气清热除湿好用不贵开门见山，今天想和你聊聊高血脂。随着现如今的物质条件越来越好，大家想吃些什么，动动手指，外卖小哥就能给你送上门；或者你去商场中看，那些大排长龙的大都是吃饭的地儿，公司年会……膜蛋白纯化克隆天然来源的膜蛋白质膜蛋白质的天然来源可以用作纯化的起始原材料。目前报导的膜蛋白质三维结构数据库中，仅有真核细胞的G蛋白偶联受体牛视紫红质是从天然的牛视网膜中提取的。因为在……2022年西欧平板市场排名来了华为仍在第五苹果大跌【CNMO新闻】在此前的几年时间里，虽然相关疫情的发展，社会上对于在线学习和在线办公的需求剧增，这其实促进了笔记本电脑和平板市场的发展。不过如今，这个需求已经逐渐恢复正常，平板……红米RedmiWatch3评测，新增蓝牙通话功能，综合实力再RedmiWatch3是红米在前不久的K60系列新品发布会上推出的新款智能手表，对比前代产品，RedmiWatch3在外观设计、运动健康和生活便利功能等方面都有着不小的升级，主……新安夜空第141期李娟雨中木梨硔新安让文学唤醒梦想用艺术点缀人生夜空雨中木梨硔李娟PART。01hr秘境想去一个地方，就如同想见一个人。一天清晨，推开窗户，一股……中国最红女模登欧美时装秀瘦到脱相引争论国际时尚VS造型失败？下面这张图片，是一位刘姓著名国际名模在法国巴黎时装周上的最新造型。相信许多国人看了之后都会吓一大跳：这名国际名模怎么会瘦成这个样子？而正是这个走秀造型，在国内社交平……

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网