应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

为什么具身智能是通往AGI值得探索方向?上交教授卢策吾深度解

  机器之心报道
  编辑:张倩
  1月11日,上海交通大学教授卢策吾在机器之心AI科技年会上,发表了主题演讲《具身智能》。在演讲中,他主要介绍了具身智能概况、他们团队提出的PIE方案、具身智能与通用人工智能以及具身智能的脑认知。
  以下为卢策吾在机器之心AI科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:
  大家好,我是来自上海交通大学的卢策吾,非常荣幸能够跟大家分享一些关于具身智能(EmbodiedIntelligences)的研究。
  首先,具身智能是智能科学的一个基础问题。过去5。4亿年来,地球上所有的生物都是通过身体逐步产生智能的,所以具身智能是具有身体体验的智能,这点会非常本质地去推进关于智能的问题。
  1950年,图灵在他的论文《ComputingMachineryandIntelligence》〔1〕中首次提出了具身智能的概念。在之后的几十年里,大家都觉得这是一个很重要的概念,但具身智能并没有取得很大的进展,因为当时的技术还不足以支撑其发展。到了今天,多学科的技术已经改变了这一局面,可以让我们去研究具身智能的一些本质问题。
  我这次主要讲四个内容:具身智能简介、我们自己提出的PIE方案、具身智能与通用人工智能以及具身智能的脑认知。
  具身智能简介
  从认知的角度来看,我们人类是第一人称(而非第三人称)视角的智能。我们用一个1963年的实验来讲解这个问题。下图有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,这只旁观的猫失去了行走能力。
  前者有点像我们现在给机器喂很多数据,属于第三人称的智能,比如我们给机器很多盒子,并且标注这就是盒子,然后机器就会觉得这种pattern是盒子。但其实,人类是怎么知道这是盒子的?是通过体验才知道的。
  目前,具身智能已经成为国际学术前沿研究方向,包括美国国家科学基金会在内的机构都在推动具身智能的发展,各大国际学术会议也开始越来越多地关注具身智能相关工作,美国顶尖高校已经开始形成具身智能研究社区。举例来说,今年的IROS(机器人领域顶级学术会议)将具身智能作为一个很重要的主题提了出来,谷歌公司比较有名的EverydayRobot已经能够将机器人和对话模型结合到一起(参见《
  谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
  》),形成一个更大的闭环。
  我刚才提到,为什么具身智能提出了几十年了,直到最近几年才比较热门。这是因为它涉及到众多的学科,当时很多学科都不是很成熟。比如在视觉上,你看都看不清楚,要怎么去做?此外,当时的硬件、软件还有各种触觉传感器也不够成熟。而到了今天,各个学科都可以聚到一起来做这么一个宏大的系统。在这样的情况下,我们才有可能推动这个方向进一步发展。
  在智能领域,我们有三个主义行为主义、符号主义和连接主义。我认为这三个主义在具身智能领域应该会有一个很好的结合点。因为,在具身智能中,我们首先需要掌握具身常识。这个环节可以用大模型来做,也可以用base来做,或者二者结合来做。这里面就涉及两种主义符号主义和连接主义。然后,这个具身智能体肯定需要不停地进化,就涉及行为主义。所以这三者会汇聚到一点来推进具身智能的发展。
  其实,具身智能是一个很好的试验场。它涉及到跟自然语言、认知科学、计算机图形学、材料学、物理学等学科的融合。我认为,这些融合可能会催生一个新的结构体系,就像冯诺依曼体系,在整个的计算机上跑。它整个计算的流是这种概念流的计算。当然,我们希望看到它在机器人上是通用的。它背后其实是一种智能,只是通过机器人这样一个形态去体现。
  下面我介绍一下我们的工作,就是PIE方案,请大家批评指正。
  PIE方案
  具身智能有哪些模块是一定跑不掉的?我们认为有3个模块具身感知(Perception)、具身想象(Imagination)和具身执行(Execution)。
  为什么呢?因为我们看到这个事件,我们总是会想象它长什么样子,我们应该怎么去做,虽然很多时候这种想象不是很显式的,是下意识的。然后,我们会去执行,就会落实到实体上面。
  下图是一个RealtoSim、SimtoReal的过程,对应着具身感知、具身想象和具身执行。下面一行是我们的几个工作:
  具身感知
  1、全概念感知
  首先,我们具身智能的感知应该是什么样的?跟之前计算机视觉的感知有什么不一样?我们觉得它应该是一个全感知。全感知的意思就是,我们能够知道我们所操作的这个世界模型(worldmodel)的各种各样的知识,跟操作相关的知识,包括外形、结构、语义,以及48个真实世界关节体类别等等。
  举个电饭锅的例子。我们检测到这个电饭锅就结束了吗?其实不是,我们要知道它怎么拧动、怎么开的。我们能够通过视觉,在没有接触的时候就大概知道它是个什么样子。此外,我们还有新的任务,比如还要标注它的语义、知道它的外形以及猜它的物理属性。猜物理属性是很有可能的,因为它是能猜出来的。猜得对不对倒没关系,猜个大概就行。比如人类看到一个桶,我们也会估计它有多重,你能估计出大概范围,然后在这个范围内去微调与它相关的力或交互,我们下个工作会讲这个事情。
  我们现在来检验我们的检测(感知)对不对。除了检测物体的某个部件(比如箱子的轴)在哪里之外,我们还需要检测能否在它上面完整地完成任务。比如我检测一个箱子,检测完了之后我能够在仿真里面顺利地打开它,证明我的检测(感知)是对的。
  这是视觉部分我们检测的一些结果:
  当然,我们也做了一个数据集:AKB48。
  接下来我们来讲讲具身交互感知。
  2、具身交互感知
  具身交互感知是什么呢?我们作交互的时候,其实除了视觉,还有触觉,还有各种内容交互的感觉。这些感觉其实也会带来新的感知。就像我们刚才讲的提一个桶或者打开微波炉,我们其实没办法从视觉上知道大概需要多少牛的力,所以其实很多时候我们对这个模型的估计是通过交互来获得的。
  我们会通过一个initialenvironment来做这样的事情。比如说,我们给它一个盒子,或者说一个模型,这个模型会产生一个URDF,就是一个机器人的描述模型。这个模型不是很准,就像人类去感知的时候。但是你可以去拉它,拉完之后你就会通过你的仿真,给出下一个模型是什么样子。接下来你还会进行点云的跟踪(点对点的跟踪)。跟踪完之后,这两个点云按道理说应该是一致的。如果不一致就有两个原因,第一是模型不对,第二是仿真的参数不对。当然,仿真参数不对最大的问题还是在于模型不对。我们就把这两个点云一减,计算它们的loss,减完之后去优化它们的loss,最小化这个loss就相当于逼着它去做对这个模型。
  这里面用到了牛顿定律和数据驱动的结合。就像我刚才讲的,我们的视觉可能会有一些问题,包括估计物理参数的时候,但是这些物理参数是被牛顿定律所支配的,只是我们不知道这些参数。比如说我们推一个木块,它一定是符合牛顿定律的,但它的摩擦系数等参数我们是不知道的,只能靠肉眼估。估得不准没关系,我们在交互过程中会估得更准,这和人类激励是一致的。
  接下来我们看看realworldexperiment效果怎么样。在这个实验里,我们先让机器人去扫描一个微波炉,扫描完之后让它去拉开微波炉的门。因为这个微波炉它之前没有见过,所以它的轴估计得不是很准,拉的动作也不太好。但是没关系,它已经迅速地学会了拉开微波炉所需的参数,所以后面就做得很好了。
  接下来看这个学会之后的视频:
  这个时候,机器人已经学会拉开微波炉的门,学会之后就可以在上面加技能了,比如把东西塞进去。这个项目是开源的,大家可以关注。
  具身想象
  感知的东西都有了之后,你肯定会在脑子里想我该怎么去做,这是一个具身想象的过程。
  我们做了一个名为RFUniverse的仿真引擎,这个仿真引擎支持7种物体(比如关节可移动的、柔性的、透明的、流体的)、87种原子操作的仿真。这些操作相当于我们把物体录入之后,我们在仿真引擎里想象它大概应该怎么做。跟以往不同的一点是,我们已经有了这些物体的知识。它也支持强化学习、VR。这个项目也已经开源。
  我们还成功探索了从看视频到机器人的行为。也就是说,我给你看50个场景,看完之后你就会在你的仿真引擎里去尝试类似的事情,尝试完之后再迁移到真机上。这项研究发表在CoRL2022上。
  另外,这套思路还可以放到人体的康复上面,去做医疗看护机器人。这项工作是我们康奈尔大学合作完成的,在IROS2022上获得了最佳论文之一。
  具身执行
  接下来是一个更难的事情:我们想象完了之后怎么去做?大家觉得想完之后去做是不是挺简单的?其实不是,因为你的想象和真实操作是有差距的。而且我们又希望这个操作能自适应于各种事件的变化,这个难度就很大。
  我们希望建一个元操作库,这样我们就能调用各种元操作来解决这个问题。在《MotherofallManipulations:Grasping》这项工作中,我们从Grasping做起。给定一个点云,这个点云对应的动作会去抓取,你怎么去产生那些grasppose?
  也就是说,这其实要探索的是从x到y的变换。
  其实,目前有三个领域在做这件事情:计算机视觉、机器人学和计算机图形学。为什么之前的领域做不好呢?首先,如果你用计算机视觉方法去标的话,这些点是很稀疏、很残破的,而且不一定对,所以你产生不了一个密集的标签。如果用机器人学的方法去做,你得到的标签量是很有限的,因为它一天也抓不了几个。如果你用计算机图形学方法,它又不是真实的,这也会有很大的问题。所以,在我们之前,没有一种可行的方法可以廉价地产生大量x到y的pair。
  那么,我们是怎么做的呢?我们先扫描物体的模型,得到一个数字孪生。有关物体抓取的力觉模型会在上面起作用。我们可以把它迁移过去,迁移完成后我们什么都有了,然后我们就可以产生这样的一个pair。
  当然,大家可能会说,每次都要扫描、产生孪生模型好累啊。其实,我们采用了半自动的datacollectionandlabeling,能够非常快速地产生20亿个抓取点位。你想要再增加十倍的数据也很容易,但我们发现20亿个已经够用了。
  有了这个东西之后,我们就要开始训练了。我们把grasp这个问题分解为where(去哪里抓)和how(怎么去抓)的贝叶斯问题,分别去估测网络。这个方法的准确率远远高于其他方法。
  下面是一个抓取瓷器碎片的结果。我们怎么证明我们的方法是通用的呢?就是这种没见过的物体也可以抓起来。这个问题是有难度的,因为你把瓷器敲碎的瞬间,每个碎片都是独一无二的。但是,我们的方法能把每一片都稳定地抓起来。其实,我们能把几千个物体都稳定地抓起来。我们也能抓取一些小的或者动态的物体。这是世界上首个能抓取未知动态物体的机器人。此外,我们还能进行透明物体的抓取。透明物体为什么难?因为它的点云是缺失的。
  我们这个论文两年内引用量达到150。我们在其中提出了新的数据、标准、算法以及系统。基于这些,我们可以做一个平台,让你不需要真机就能够去验证。这个事情就相当于,你看到的是真实的点云,看到之后你给我一些抓取的姿态,我就能给你返回你的成功率。我们也能做到超越人类水平,达到和人相媲美的99。5的准确率。
  以上就是我们前面提到的三个模块,我们也在逐步完善这样一个框架。它们也已经有了一些实际的应用。
  具身智能与通用人工智能
  接下来分享一下我们对具身智能与通用人工智能的看法。
  为什么说具身智能可能是很好的一个走向未来的方案?人工智能是很多概念的总和。其中有些概念很难被测量或验证,比如让机器理解什么是社会,什么是责任。虽然它能给你输出一个表征,但我们很难检验机器是不是真的理解了这些概念,毕竟对于这些概念,每个人都有自己的看法。所以我们可以先在一些可验证、可测量的概念上面做出个闭环。而具身智能刚好是这样一个闭环,它很容易理解什么是锤子。所以我们认为,这样的具身智能可能是迈向通用智能的一个很好的起点,因为它可测量、可解释、可检验。
  在交大,我们做了一个开源系统Robotflow(https:robotflow。ai),接入了二十几种机器人的程序,非常易于开发和部署,大家可以下载使用。
  具身智能的脑认知
  人体是最大的一个具身智能体。我们想知道人体在操作过程中,是一个什么样的机制催生它去做这样一件事情。这就涉及到脑科学,比如人切菜的时候,脑神经在干嘛;跳芭蕾的时候,脑神经又在干嘛。
  我们要解决的第一个问题就是:我们看到的这样的视觉表征,和脑神经是否有一个稳定的映射关系。
  这件事情在人身上其实很难验证(需要做侵入式实验),所以我们普遍是先做小鼠的实验:去看大规模的小鼠的行为,同时观测他的神经信号。如果二者有稳定的映射,我们就认为这个规律是存在的。
  在这样的情况下,我们就通过训练,去提取大量的脑信号标签以及它的行为标签。这里面发挥很大作用的是我们提出的一整套非常鲁棒的行为检测系统,不然行为标签可能存在大量的错误。为什么要自动去检测呢?因为那么多小鼠的数据,人看是看不过来的。我们的实验结果是93,证明这种映射是相对稳定的。
  当然,这里面有很多的挑战。我们需要去解决一个重大的问题:行为理解。就是说,理解小鼠的行为其实是一件困难的事情,我们在这方面也做了很多工作。
  通过实验我们可以看到,小鼠的神经观测结果和行为的视觉表现是能对得上的,这是一件很神奇的事情。从长远的角度来讲,我们是不是可以把小鼠或者说生物体在做某种行为的时候,它的脑神经状态的表征,作为我们具身智能的一些表征?这个东西可能近5年内都没有办法做出来,但其实它对具身智能的发展来说是一个非常好的重点方向。
  我们还有一些副产品非常有意思,就是对行为神经学、生物学的一些贡献。如果我们做神经回路,很多时候你要激活某个神经去分析行为。这种方式非常麻烦,不能产生大规模的自动分析结果,导致复杂行为(如社会行为)的神经解析仍然十分困难。有了这套系统之后,我们就能用人工智能的方法去解决它。这其实形成了一种范式的转变。
  在大规模的视频跟踪中,我们可以同步小鼠的脑神经信号,去指定它是在哪个地方发生的,控制它的回路是在哪里。通过这种方法,我们成功地定位了控制小鼠社会等级行为的神经回路。这是神经学里面长期存在的一个难题。
  我们的相关工作发表在《自然》杂志上。我是这篇文章的通讯作者之一,文章的另一位通讯作者是一位生物学家。我们已经把研究代码和新工具都开源了。有些人给了我们比较好的评价,认为我们是基于人工智能的一种探索行为神经机制的新方法,也有人认为说我们提出了一种很有前景的新算法。
  我的讲座就到这里,谢谢大家。

马尚力挺威姆斯!指责韩德君没素养,球迷你来挨一肘试试?北京时间1月20日,广东队前外援马尚布鲁克斯在个人社交媒体上发布动态:Crazycauseiwatchedsonnygethisfacebussedopenagainstthe……唐艺昕经典色系穿搭,又帅又酷,看似简单,其实很高级就说唐艺昕的基础穿搭,是那种看起来很简单实际上很高级的那种,用简单的色系去形成百搭的风格,黑色系高筒靴,选择的是皮质设计,本身就有点偏酷的风格,加上黑色系踝靴的以及针织开衫,整……中国足球留洋军团现状男足4人,女足5人,王霜重返欧洲希望大在前不久的一场世预赛中,中国男足客场挑战日本队,最后的比分是02,对方控球高达64,射门17次,而我们只有1脚尴尬的射门(韦世豪的任意球)。造成这种差距的原因到底是什么,有人说……50岁李亚鹏再婚?新女友身份曝光,网友太现实了1月12日,李亚鹏被曝光与小19岁女友拍婚纱照。李亚鹏身穿正装西服,女友海哈金喜婚纱露背照曝光。拍摄期间,李亚鹏还和朋友展示手上的戒指(带在左手无名指意味已婚)。……不到万不得已,别穿人家的旧衣服,原因有三借朋友的衣服穿,这种情况在年轻人中很常见,尤其是住校学生群体!对学生来说,自己的衣服洗了没干,接关系好的同学的衣服穿一天没什么,但是对走入社会的人来说,无论男女,不到万不……你知道黄河有多可怕吗?你知道黄河有多可怕吗?黄河的观赏性其实比较强。别以为黄河满是泥沙,很不干净的河流。黄河有他自己独特的美感。上游黄河一般位于青藏高原地区,气温低,河水比较清澈,中游黄河是有……暖风频吹,改善型购房需求得到释放三湘都市报新湖南客户端全媒体记者卜岚对于房地产行业而言,2022年无疑是政策转向的一年,楼市的调整也步入宽松周期:这一年长沙政策的暖风也频频登场:缩短限购期限、以租换购换……做人做事,心存善念,天必佑之做人做事,心存善念,天必佑之连续三年的疫情,让我们明白,人生百年,生死没有什么大不了的,做事问心无愧,才不枉来人间一回。只有用心地活过,才能体会生死的意义。金钱失去……一天耗能26万度!江苏全面排查虚拟货币挖矿,涉事IP地址数超江苏省通信管理局网站近日发文称,全面排查虚拟货币挖矿行为,监测发现省内开展虚拟货币活动的矿池出口流量达136。77Mbps,参与挖矿的互联网IP地址总数4502个,消耗算力资源……张常宁忍无可忍!晒住院照证清白我不在乎,不代表可以随意抹黑自从东京奥运会遗憾止步小组赛之后,女排上上下下几乎每一位成员都受到了来自公众的质疑,对于这次出征东京得到的结果,郎平教练选择卸任,将岗位留给更年轻的教练,替女排扛下了主要责任。……孙俪身穿黑色裙子搭配高跟鞋导语:孙俪身穿黑裙搭配高跟鞋,肤白貌美大长腿!已经四十岁的孙俪,却没有留下一丝岁月的痕迹,我非常好奇一件事,难道女明星都不会老吗?为了让人觉得自己好看也实属不易,我……使用激光可调湿蚀刻曲面实现无间隙微透镜阵列的通用引言近年来,飞秒激光直写技术已经成为制造任意纳米精度三维微结构的热门工具。飞秒激光诱导双光子聚合(TPP)允许在聚合物中形成微透镜或更复杂的3D微结构。然而,这种逐点过程……
大衣哥助农开播10分钟带货10万袋大米,网友调侃陈亚男馋坏了什么叫差距?曾经的公公和儿媳妇终于在同一个领域中相遇了,只是一个开播10分钟就卖了10万袋大米,一个开播10分钟就被网友投诉到直播间封禁!没错,说的就是山东知名农民歌唱家……今日A股突然大跌61点,发生什么事?接下来的行情会怎么走?今天是10月24日,1024程序员节,中国股市却走出了滑铁炉式的走势,大盘单边下跌2个多点,振幅却超过了3,这样血腥残暴的场面,究竟发生了什么事?大盘跌破3000点之后,接下来……国家统计局7月份一线城市商品住宅销售价格环比微涨二三线城市环2022年7月份,70个大中城市中商品住宅销售价格下降城市个数略增。一线城市商品住宅销售价格环比微涨、同比涨幅回落,二、三线城市环比整体呈降势、同比降幅扩大。一、从环比看……古生物学家发现怪异的装甲恐龙新物种一种双足坦克据NewAtlas报道,像剑龙和甲龙这样的装甲恐龙大多是用四足行走的大而笨重的动物,但古生物学家现在发现了一种奇怪的甲龙近亲,其大小与狗一样,用双足行走。最大和最引人注目的恐龙……适合03月09日发微信朋友圈的早安句子1、人生多一份挫折,就多一份人生的感悟;人生多一次跌打,就多一条抗争的经验。早安2、人生的起跑线,就在眼前,关键在于你是否用过。人生就像一个尺子,我们就站在一米的地方,但……鲜香入味超下饭的10道家常菜,做法简单的美味家常菜,隔屏流口大家好,欢迎大家来到我的美食自媒体,我是美食领域创作者锦绣V山东:专注美食,让生活更有味。今天为大家带来了几道家常美食的做法,这几道美食也是深受大家的喜欢,而且是很常见的几道美……(科技)中国企业亮相2022柏林轨道交通展新华社柏林9月20日电(记者李超)德国柏林轨道交通展20日开幕。这是该展会自2018年以来时隔4年再次举办。中国中车股份有限公司、华为等中国企业亮相今年的展会。在今年展会上,中……在中国点亮第一盏聚变之灯【奋斗者正青春】能源短缺,是日益严峻的全球性挑战。能否在地球上造出人造太阳,为人类提供清洁、稳定的能源?这一问题,困扰了全世界几代科学家。为了实现人造太阳这一梦想,……把秋天寄给远方诗平德在春天的花丛里立意在夏天葱茏的原野谋篇不能在秋天的忙碌中搁下稍一徘徊便是一片苍白把双脚抬高把眼睛放远蘸满清澈的秋水写一笔江……马踏飞燕的主人找到了!曹操因他失去3个至亲,你一定认识众所周知,东汉青铜器铜奔马,别名马踏飞燕,不仅是我国国宝级别的文物,也是我国禁止出国展览的重要文物之一。它于1969年在甘肃省威武市雷台汉墓出土,一出土就收获了很多人的目光,这……信创生态建设步入加速期近日,为适应更广泛的国产化应用场景,金现代研究院启动了轻骑兵低代码开发平台对于神通数据库的兼容性升级工作,旨在全面适配国产化软硬件生态体系。这是信创和数字化转型融合趋势下,金现……即使BTC有望上涨,Chainlink(LINK)表现也可能受欢迎的加密货币分析家本杰明科文表示,尽管他相信比特币作为其旗舰加密货币,会在近期内升值,但是他相信Chainlink(LINK)会有更好的表现。在AltcoinDail……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网