应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

ICRA2023解释自身行为,赢得人类信任的自动驾驶算法AD

  论文链接:https:arxiv。orgabs2302。00673代码链接:https:github。comjxbbbADAPT
  一、简介在过去十年中,自动驾驶在技术研发方面取得了重要的里程碑。目前自动驾驶控制器设计主要有两类方法:中介感知方法和端到端学习方法。基于中介感知的方法依赖于识别人为指定的特征,如车道标记、交通灯、行人或汽车,通常需要进行严格的参数调整,以达到平衡性能。而端到端方法大多将驾驶策略作为监督学习问题,以人类驾驶行为为数据进行学习,如使用深度神经网络,输入车辆行车记录仪图像和车辆状态,预测车辆的未来运动。尽管这些方法具有潜力,但它们通常无法展示系统决策的基本原理,使得决策过程变得不透明和无法解释。然而可解释的决策过程对于自动驾驶技术是非常重要的,自动驾驶汽车对乘客而言是一项较为激进的技术,需要非常高的信任度,如果乘客不能确认自己的安全问题,自动驾驶汽车就很难推广。解释的形式有很多,如视觉注意图(Kim,Jinkyuetal。,2017)或者成本量图costvolume(Zeng,Wenyuanetal。2019)等,如视觉注意图可以过滤非显著的图像区域,保留对输出有潜在因果影响的注意区域,但由于用户对于智能系统的不熟悉,注意图等方法很容易导致用户的误解。而文本解释却可以解决这个问题,自然语言的优势在于其本质上易于理解,即使用户不熟悉自动驾驶算法的设计,也能理解车辆执行决策的原因,例如,〔描述〕:thecarpullsovertotherightsideoftheroad,〔解释〕:becausethecarisparking。将视频输入与车辆行为通过语言联系起来,让整个系统更加透明,便于理解,这对提升用户接受度具有重要作用。
  为此,我们提出了ADAPT(ActionawareDrivingcAPtionTransformer),这是目前第一个基于Transformer的驾驶行为描述架构,它可以为乘客提供自然语言形式的车辆决策描述和原因解释。为了减少车辆决策任务和文本描述任务之间的差异,我们使用多任务学习的方法来联合训练这两个任务,这种多任务框架可以通过加入额外的文本生成模块来方便的集成到自动驾驶系统中。我们在包含控制信号和车辆视频的大规模数据集BDDX(Kim,Jinkyuetal。,2018)上验证了ADAPT的有效性,并在实车测试中取得了优异成果。
  二、模型架构ADAPT可以完成两个任务:车辆控制信号预测任务(ControlSignalPrediction)以及车辆行为描述任务(DrivingCaptionGeneration)。车辆控制信号预测任务将车辆第一视角视频作为输入,然后输出车辆的控制信号序列,如一段时间内的方向或加速度等。车辆行为描述任务采用相同的视频帧作为输入,并输出两个自然语言语句:一个描述车辆的动作(如:thecarisaccelerating),另一个解释采取该动作的原因(如:becausethetrafficlightsturngreen)。整个架构如下图所示:
  视频编码器两个任务使用同一个视频编码器对车辆视频进行编码,然后通过不同的任务模块来获得不同的预测结果。我们使用VideoSwinTransformer(Vidswin)作为视觉编码器,将视频帧编码为视频特征。假设输入为车辆第一视角视频,首先对其进行均匀采样,得到帧大小为。这些帧作为输入传递给Vidswin,可以得到大小为的视频特征,其中是Vidswin中定义的通道维度。然后,视频特征被输入到各个任务的不同预测模块中。预测模块在ADAPT中,我们假设车辆控制信号预测任务和行为描述任务在视频编码时具有语义一致性。直观来讲,车辆动作的文本描述和车辆的控制信号是自动驾驶车辆动作的不同表达形式,因此在单个网络中联合训练两个任务可以有效利用不同任务之间的归纳偏差,从而提高最终性能。控制信号预测模块控制信号预测模块的目标是根据输入的视频预测车辆的控制信号(例如加速度、方向等)。如上所述,视频帧被编码为视频特征,大小为。然后,我们沿着频道维度对视频特征进行标记化(tokenize),得到数目为的视频标记,其大小为,然后我们使用一个MotionTransformer生成这些控制信号序列的预测值。最后,根据车辆真实的控制信号序列以及模型预测的控制信号序列,我们用两者的均方误差作为该模块的损失函数:需要注意的是,模型不会预测视频第一帧对应的控制信号,因为第一帧对应的车辆动态信息比较有限,控制信号难以推断,而其他帧对应的控制信号可以很容易地从先前帧来推断。文本生成模块
  文本生成模块的目标是生成两个自然语言语句:车辆行为描述和原因解释。我们使用VisionLanguageTransformer来实现文本生成。
  在训练阶段,我们使用掩码语言建模(MaskLanguageModeling)的方法对文本进行建模。对于输入的两个句子(动作叙述和推理),我们首先将每个句子填充到固定长度,然后在这两个句子的起始位置和终止位置分别插入〔CLS〕和〔SEP〕,再将两者拼接起来,得到预处理后的句子。随后,将连接起来的句子输入到词嵌入层(WordEmbedding)中。与常规图像描述任务不同的是:在ADAPT中,我们需要生成两个句子。为了识别动作描述和原因解释之间的差异,我们利用段嵌入(SegmentEmbedding)方法来区分它们。对于视频来说,我们使用跟控制信号预测模块相同的方法,将视频特征标记化。最后,文本标记和视频标记被送入VisionLanguageTransformer中进行建模。
  在推理阶段,ADAPT以自回归方式进行文本生成。具体来讲,我们将一个〔CLS〕符号(起始符)输入到模型中,生成一个单词,然后将起始符和生成的词组合起来继续输入到模型中,直到模型输出结束标记〔SEP〕或达到单句最大长度阈值结束。然后,我们将第一个句子填充到最大长度,再连接另一个〔CLS〕,重复上述过程以生成第二个句子。
  三、实验结果我们通过多重指标测试了ADAPT的有效性,包括机器评测和人工评测。在机器评测上,我们采用了BLEU4、METEOR、ROUGEL和CIDEr(在后面的表格中缩写为B4、M、R和C)等多种语言任务常用的指标。此外,由于语言模型并没有完美的的机器评测方案,因此我们还为生成文本的主观正确性进行了人工评测,以使得生成的文本对乘客更加友好。
  与stateoftheart方法的比较
  对于机器评测,我们将ADAPT与现有的先进方法在进行了比较。可以看到,ADAPT在机器评测上达到了SOTA的结果,如在Cider指标上,ADAPT在动作描述方面比先前的最先进方法高了31。7,在原因解释方面高了33。1。
  对于人工评测,我们将整个评估过程分为三个部分:
  1。动作描述Narration
  2。原因解释Reasoning
  3。动作描述原因解释FullSentence
  在人工评测的第一部分,标注员需要根据车辆视频判断生成的动作叙述是否符合车辆的动作。在第二部分,我们展示了车辆视频以及视频自带的动作叙述,让标注员判断模型生成的原因解释是否合理。最后,我们仅展示车辆视频,然后将模型生成的动作描述和原因解释合成一句话,让标注员判断这个长句子的准确性。人工评测结果如下表所示,可以看到,在人工评测方面,ADAPT在原因解释的正确率上显著优于先前的工作,同时在动作描述方面保持了较高的精度,这足以说明ADAPT的有效性。
  控制信号预测结果虽然ADAPT的最终任务是生成自然语言语句,但我们也测试了其控制信号预测的性能。我们使用均方根误差(RMSE)和容差精度来对控制信号的准确性进行衡量,其中容差精度的定义为控制信号截断值的准确率。例如,模型生成的预测方向的截断值定义为:其中,表示车辆真实的方向,是容差阈值,在本工作中取了0。1、0。5、1。0、5。0、10。0五个值。当然表示以百分比形式记录的的精度,速度的类似。从表格中可以看到,ADAPT可以进一步提高控制信号预测的准确率,这也证明了多任务联合训练的有效性。可视化结果上面展示了ADAPT的一些可视化结果。可以看到,ADAPT可以准确地识别车辆的行为以及决策的原因,比如在第一个例子中,车辆由于当前车道拥堵需要转到左侧车道。从后两个例子中可以看到,对于黑夜、阴雨天等复杂场景,模型仍然能给出流畅准确的描述和解释,比如在最后一个例子中,即使有雨刷器这种视觉干扰,模型也能识别到场景中的信号标志STOPSign,这也证明了ADAPT算法的鲁棒性和泛化性。
  四、总结
  基于自然语言的可解释性对于自动驾驶车辆的社会接受度至关重要。我们提出了ADAPT(ActionawareDrivingcAPtionTransformer),这是一种端到端的Transformer框架,用于生成自动驾驶车辆的动作描述和原因解释。ADAPT利用多任务学习来减少驾驶动作描述任务和车辆控制任务之间的差异。实验结果证明了我们的方法在机器评测和人工评测方面均能达到了优秀的结果。未来,我们准备进一步开发一个可部署的系统,可以将ADAPT应用在仿真环境和真实场景中,以使自动驾驶能够更轻松的被人类理解,从而促进自动驾驶车辆的进一步落地。
  参考文献
  〔1〕J。Kim,A。Rohrbach,T。Darrell,J。Canny,andZ。Akata,Textualexplanationsforselfdrivingvehicles,inProceedingsoftheEuropeanconferenceoncomputervision(ECCV),2018,pp。56357
  〔2〕J。KimandJ。Canny,Interpretablelearningforselfdrivingcarsbyvisualizingcausalattention,inProceedingsoftheIEEEinternationalconferenceoncomputervision,2017,pp。29422950。
  〔3〕W。Zeng,W。Luo,S。Suo,A。Sadat,B。Yang,S。Casas,andR。Urtasun,Endtoendinterpretableneuralmotionplanner,inProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition,2019,pp。86608669。
  〔4〕J。Devlin,M。W。Chang,K。Lee,andK。Toutanova,Bert:Pretrainingofdeepbidirectionaltransformersforlanguageunderstanding,arXivpreprintarXiv:1810。04805,2018
  〔5〕K。Lin,L。Li,C。C。Lin,F。Ahmed,Z。Gan,Z。Liu,Y。Lu,andL。Wang,Swinbert:Endtoendtransformerswithsparseattentionforvideocaptioning,inProceedingsoftheIEEECVFConferenceonComputerVisionandPatternRecognition,2022,pp。1794917958。
  〔6〕S。Venugopalan,M。Rohrbach,J。Donahue,R。Mooney,T。Darrell,andK。Saenko,Sequencetosequencevideototext,inProceedingsoftheIEEEinternationalconferenceoncomputervision,2015,pp。45344542。作者:晋步IllustrationbyTanahAirStudiofromIconScoutTheEnd本周上新!
  扫码观看!
  多家技术企业招聘来啦!多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自科技大厂微软亚研、腾讯、小红书等企业,科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!扫描了解详情
  关于我门
  将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及。
  将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我门:
  一键送你进入TechBeat快乐星球

40岁来临前,给你11条改变人生的建议有人说,40岁是一扇门,分出了人生的两个阶段。此前的生活里,奔波和忙碌是永远的主旋律。到了下半场,取舍和进退成了要紧的话题。所谓四十不惑,不是什么都知道,而是……人生不免走弯路弯路不免会走,但经历切肤之痛后我们就学精了(首发于www。qiqixie。com)这个周末,我太太,曼达去海边儿跟朋友度假了。头头则去参加他一个同学的婚礼。这家里就剩我一……洗缩水的毛衫,真能恢复如初吗?软糯的羊绒衫,暖身的毛衣,绝对是冬日衣橱里的主角,然而,一个不小心洗错了,M变成XS的惨剧就这样发生了。不过近来市面上开始出现一些还原神器专门给洗缩水了的毛衫等羊毛羊绒制……英特尔追赶先进制程脚步,Intel18A提前至2024下半年处理器龙头英特尔在IEDM2022(2022IEEE国际电子零件会议)展示最新技术蓝图时,表示保持快速步伐,不仅走在正轨,未来还要加速交货。随着不断缩小的硅与物理量子效应冲击,……朝阳浪马轮胎抢抓机遇创新实干以优良业绩回报家乡人民非常感谢市委、市政府!最艰难时期已经过去,企业生产经营正有序恢复,浪马人决不辜负市委、市政府的关心、关怀和期待,定以优良业绩回报家乡人民!日前,朝阳浪马轮胎有限责任公司董事长李……澳华内镜研究报告AQ300上市,对比奥巴和澳华(报告出品方作者:华创证券,郑辰,李婵娟,万梦蝶)一、解密奥林巴斯内镜王者之路(一)奥林巴斯从多元化发展路径到以医疗为核心的瘦身转型奥林巴斯1919年成立,以显微镜……150亿公里外!我国公布航天四大目标,追赶美国中国航天深空探测大动作来了!目标定在150亿公里外,我国航天太强了!探月自从嫦娥五号探测器将月球样本带回来后,我国的探月工程就暂时修整了。不过,第四期探月工程即将展……暴雪出轨是一种习惯暴雪和网易,终于还是分手了。时隔13年,熟悉的剧情再度重演:同样的更换代理,同样的国区停服。到明年1月24日,包括《魔兽世界》《炉石传说》《守望先锋》等暴雪旗下的一……老了脑子越来越不灵活,这些加速大脑衰老的习惯你中招了吗?正如你所知道的那样,随着年龄增长,脑力或多或少地会有所下降,智力下降、记忆力减退是正常的现象。所以理所应当的认为人老了大脑也就是老了,实际上大脑的衰老比想象的要来得早。有……杨迪没收到跨年晚会邀请,谢娜离开湖南卫视,也没在其他平台露面每年到了年末,很多人忙着休假玩乐,娱乐圈艺人却是最忙的时候,因为各种跨年晚会、盛典和演出扎堆,有人气的自然资源好,商机不断,赶场赚钱忙。随着跨年临近,几大卫视以及一些网络……需求恢复强度橡胶行情紧俏展望2023年,整个产业链的修复要取决于全球经济的恢复。若全球经济持续低迷,尽管终端市场有一定的修复,但是效果也将大打折扣,难有实质性的改观,对于上游天然橡胶的支撑也显得薄弱。……Reno9系列玩机技巧速览卡片,让桌面即好看又好用!OPPOReno9系列出厂即搭载了非常好用的ColorOS13系统,上面有各种既人性化又实用的功能,之前也和大家详细介绍了快速转移数据以及一些系统上的设置技巧,接下来就正式和大……
中国女篮完胜世界强队!李梦大爆发,韩旭14分10篮板,李月汝经历了中国男篮的糟糕表现之后,球迷和媒体都希望中国女篮在即将开始的世界杯上能够有所突破。正在欧洲拉练的她们和世界强队塞尔维亚进行了两场热身赛,结果第一场大胜了25分,第二场又以……奥尼尔摊上事了霍华德的对手都是小矮子!湾湾球迷怒了霍华德在加盟T1联赛大受欢迎,代表桃园云豹队接连打破球员个人和联赛观众记录!见到这样的盛景,前湖人传奇中锋奥尼尔却酸了!事情大概是这样的。前湖人中锋霍华德加盟云豹队……准妈妈可以吃什么退烧药?之前讨论过宝宝发烧怎么办,有朋友就问,那如果是准妈妈发烧怎么办,可以吃什么退烧药呢?很多准妈妈因为担心药物对胎儿有影响,发烧了也不敢吃药,就一直忍着。其实如果孕期持续发热……公募业绩排名大战收官近10年冠军基金年内收益均告负经济观察网记者洪小棠随着2022年悄然走过,公募基金业绩亦正式放榜。记者注意到,2022年对于主动权益基金而言,业绩分化十分明显,全年业绩首尾相差达到了98。62。整体而……ampampquot中国登月后宣布主权ampampquot,在过去的2022年,中国航天技术取得了巨大成就,回顾过去一年,航天发射次数高达64次,其中包括53次的长征系列运载火箭的发射,再创历史最高记录,另外,中国将140多个航天器成功……两战5524!休斯顿痛失班基石,火箭10换1杜兰特值得吗?虽然魔术本赛季打到目前只赢了两场,但他们的未来看起来要比火箭光明多了,因为他们选到了班切罗这名可以当作基石培养的超级新秀。过去两场魔术险胜勇士,惜败给国王,班切罗表现相当……钱塘江丨浅尝慢饮间老酒溢新香抿一口埋藏了十八个冬的九九女儿红,啜一杯黄酒奶茶,吮一根黄酒棒冰,来一场体验脱口秀,浅尝慢饮间,千年古镇的时光便氤氲在这一片浓得化不开的烟火气里黄酒小镇,在袅袅酒香中感悟着别样……一加AcePro忙着让路,价格又降了600,150W快充48一款旗舰机能同时具备当下最好的处理器性能、最好的快充续航组合、最主流的影像设备等,而且价格也实惠的话,那么这样的旗舰可以毫不犹豫入手。在今年一加推出的全新Ace系列机型中就出现……B站游戏的下半场,陈睿替补上场他改变过B站,这次还会吗?上周五,哔哩哔哩公司发布了一封内部邮件,宣告游戏业务的汇报线将从公司高级副总裁张峰,调整至公司CEO陈睿。一言以蔽之,陈睿要亲自接管B站游……绝了!巴黎巨星开派对,7位名媛出席,球迷内马尔又放飞自我了足球助力团巴黎三大巨头之一内马尔又被媒体盯上了,由于他停赛没有出现在巴黎对阵尤文的比赛中,他在家中开了一场派对,有7位名媛出席这场交流会,不少球迷纷纷表示内马尔真的是绝了……心情散文行走的微春千叶桃花胜百花,孤荣春晚驻年华杨凭《千叶桃花》01hr守候即便成长纷飞飘落万人迷似乎人生都是打磨的历程,你我都不例外;按耐蠢蠢欲动的思……特斯拉机器人虽然拉跨,但机器人时代可能真的不远了最近特斯拉发布了Tesla机器人Optimus,不过由于是个样机,和去年的TeslaBot的造型做对比,在外型上很不讨喜,让人实在大失所望。去年介绍的TeslaBot……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网