应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

AI声呐眼镜来了!读懂唇语隔空操控手机,准确率达95

  智东西
  编译吴菲凝
  编辑李水青
  智东西4月17日消息,近日,康奈尔大学未来交互智能计算机接口(SciFi)实验室发布了一款声呐眼镜EchoSpeech,该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。这款看似普通的眼镜使用了声学感应和AI技术,并配备两对扬声器和麦克风,目前可以连续识别多达31条无声语音指令,准确率高达95。
  EchoSpeech的主要应用场景包括嘈杂环境、不方便交谈的场合以及私密对话,还能帮助语言障碍者与他人进行交流,兼具商业消费和医疗保健功能。研发团队通过AI深度学习管道,来破译面部运动的声波传输轨道,利用卷积神经网络来解码无声语言。
  此外,研发团队目前正通过资助项目Ignite来实现设备技术的商业化,未来将实现一定范围内的推广使用。
  这篇名为《EchoSpeech:由声学传感驱动的眼镜上的连续无声语音识别(EchoSpeech:ContinuousSilentSpeechRecognitiononMinimallyobtrusiveEyewearPoweredbyAcousticSensing)》的论文本月将在德国汉堡举行的CHI(ConferenceonHumanFactorsinComputingSystems)计算机协会会议上发表。
  论文链接为:
  https:dl。acm。orgdoi10。11453534621
  一、可识别佩戴者唇部运动,转换准确率高达95
  康奈尔大学信息科学学院博士生张瑞东,也是EchoSpeech声呐技术研究的主要参与者、论文的主要作者,在视频中演示了EchoSpeech眼镜的外形、工作原理和使用方法。
  在外人看来,张瑞东像是在奇怪地自言自语,他明明在说话却没有发生任何声音。实际上,他正在向EchoSpeech念密码来解锁自己的手机,并让它播放音乐列表中的下一首歌曲。
  这种像在电影中才能实现的场景不是心灵感应,而是康奈尔大学最新发布的一项新产品EchoSpeech。该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。
  据康奈尔大学计算与信息科学学院助教、科学实验室主任张成说,研究团队正在通过这项技术,将声呐转移到人们的身上。EchoSpeech眼镜下方配备了一对麦克风和一个比铅笔头上的橡皮擦更小的扬声器,这两个工具组成了眼镜的AI声呐系统,能向面部发送和接收声波并感应佩戴者的唇部运动。
  与此同时,当佩戴者试图无声交流时,研究人员开发出的深度学习算法会实时分析这些回波轮廓,目前的准确率约为95。
  在张成看来,之前的无声语音识别技术最大的障碍就在于预定命令,而且用户必须要佩戴一个不小的摄像头,这导致这项技术既不实用也难以实现。而且技术上还涉及到可穿戴摄像头的用户隐私保护问题,更需要加强安全管理。
  EchoSpeech使用的声学传感技术降低了对可穿戴摄像机的要求。由于音频数据比图像或是视频数据要小得多,因此只需较小的带宽就能处理,还能通过蓝牙实时传输到智能手机上。
  信息科学学院教授、论文合著者弗朗索瓦金布雷迪尔(FranoisGuimbretire)说:由于数据是在用户的手机上本地处理的,没有上传到云端处理,因此可以确保所有隐私敏感信息都不会脱离用户的控制。
  EchoSpeech最普遍的使用场景是不方便交谈或是无法发言的场合,比如嘈杂的餐厅或是安静的图书馆。在公共场合当中,当人们想谈论一些较为私密的话题,或是涉及到高保密性的工作内容时,EchoSpeech可以帮用户保护好这些隐私,让外人无法听到双方的谈话。EchoSpeech还能与手写笔配对,并于CAD等设计软件一起使用,几乎不用鼠标和键盘就能完成工作任务。
  谈及这项技术在未来发展中的用途时,该研究的主要参与者信息科学博士生张瑞东称,对于那些听障人士、语言表达障碍人士而言,这种无声语音技术可能是语音合成器的绝佳拍档,它可以让他们流畅自然地发出自己的声音。据悉,当前版本的眼镜声学感应电池续航时间可持续约10小时,配备摄像头版本的则是30分钟。
  无论用作商业消费级智能穿戴设备,还是用作医疗保健功能,EchoSpeech将智能可穿戴技术的实用性发挥到了最大。
  二、连续识别31项指令,匹配新用户仅需6分钟
  EchoSpeech看上去就像一款普通的近视眼镜,但事实上并非如此。在一项12人参与的小型测试中,EchoSpeech可以连续识别出31个独立的无声命令,以及一串由被试者发出的的连续数字,它在测试中的错误率低于10。
  EchoSpeech在发布的论文中详细解释了这项技术的工作原理。
  两对微型扬声器和麦克风放在镜框下方来监测面部不同侧面的运动,当扬声器发出约20000赫兹的声波时,声波会沿着一块镜片到嘴唇的特定路径传播到另一块镜片上。当来自扬声器的声波感知到唇部运动后进行反射和衍射时,麦克风会捕捉这些声波的独特模式,并为每个句子或是命令制作一个回声配置文件,这就像一个完整的小型声呐系统在镜片下方工作。
  图为系统布局和回波配置文件。
  在上图中,图a展示了传感器的最终位置,图b代表者信号传递路径,即从P1到P4,S1、S2为扬声器,M1、M2为麦克风。每条路径都由多个路径反射和衍射组成,它们源自源扬声器,结束于麦克风。图c是EchoSpeech对不同指令形成的声波配置文件。
  通过机器学习,人们可以通过这些回声配置文件推断佩戴者的无声语言以及他们想说的单词。虽然语言模型是在选择命令上经过统一的预先训练的,但它会根据每个佩戴者来进行微调,需要约6到7分钟来为新用户进行匹配。
  声波传感器通过定制的扬声器连接到微控制器上,扬声器还能通过USB电缆与电脑进行连接。
  在实时演示中,团队演示了低耗能版本的EchoSpeech如何通过蓝牙和微控制器来与手机进行无线通信,设备连接到安卓手机之后,能进行面部动作预测并将转换结果传输到某个动作键上,发布指令来让手机播放音乐、激活语音助手或是控制手机,这就是张瑞东在演示中自言自语就能切换音乐播放列表的技术原理。
  此外,研发团队还设计了一个定制的深度学习管道,用来破译面部运动的无声语音的声波轨道。通过回声曲线计算模型来解析面部运动模式,研究人员为EchoSpeech添加了一个基于卷积神经网络(CNN,ConvolutionalNeuralNetworks)的模型,用来解码来自回声轮廓(echoprofiles)的无声语言。
  研究团队还在CNN末端添加了时间递归神经网络(RNN,recurrentneuralnetwork),包括长短时记忆神经网络(LSTM)和门控递归单元层(GRU)来提高性能,在这样一个卷积循环神经网络结构(CRNN)模型上进行了实验。研究结果显示,GRU的性能明显优于LSTM,在大多数情况下,CNN与CRNN的工作方式是类似的,但在音频数量相同的时期,CNN的收敛速度比CRNN要更快一些。
  三、单句、整句都可识别,静态、动态效果一样
  据研究表明,隐私问题和社交尴尬是人们愿意使用无声语音助手的重要因素,他们希望不用大声说话就能交流,而且不会向外界泄露半点声音,无声语音助手在这点上很好地保护到了用户的隐私。为了满足用户对于无声语音界面(SSI)功能的更多需求,研发人员希望EchoSpeech能无限接近现实生活场景。
  在实验中,团队首先设计了两组命令来检验EchoSpeech识别离散和连续语音方面的能力,并考虑到了最常见的两种情况:静态和动态。
  离散研究主要关注独立命令,连续研究则关注连续无声语音识别,每位被试者都需要完整这两个测试。在数据收集过程中,电脑屏幕上出现被试者需要执行的命令,他们说出电脑上出现的词但不能发出声音,电脑摄像头将这一完整过程录制下来,清晰地检测到每位被试者的面部肌肉运动走向。
  在离散研究中,每个无声指令最长的持续3秒,3秒之后就自动跳到下一个指令;在连续研究中,被试者有4秒的时间来把每句话传递给声呐眼镜,完成后按空格键或是右箭头跳到下一个指令,被试者们尽可能以自然的速度和语气说话。
  为了测试在静态(如坐在办公桌前)和动态(如在马路上走时)两种情形下,声呐眼镜的识别性能是否能保持稳定,一部分被试者用自己习惯的方式和速度在房间里随意走动,另外一部分则是抱着电脑走,结果显示两种情况下眼镜的表现并无显著差异。
  EchoSpeech在静态和移动状态下的语音识别性能对比
  研究团队称,用户只需提供68分钟的静态训练数据,就可以在静态和移动环境中无差别使用声呐眼镜,而且性能良好。
  随着未来潜在的大规模部署,这种性能可以进一步改进。这将成为SSI迈向日常生活应用场景当中的坚实一步。
  四、技术或将商业化,成为日常消费级产品
  除了EchoSpeech以外,SciFi实验室之前还开发过一款称为EarlO的系统,该系统用配备声呐的耳机来捕捉佩戴者的面部表情,佩戴者的面部皮肤会在发声时出现移动、伸展和起皱,回声配置文件据此而进行调整,再利用算法识别这些回声配置文件,并快速重建用户面部表情,显示在数字化身上。
  纽约发布罗大学的一个研究团队也研发过一款类似设备EarCommand,当我们默默说出一个单词时,肌肉运动和骨骼移动会导致耳道以独特的方式发生变形,这就意味着特定的变形模式可以与特定的单词相匹配,计算机利用这些AI算法来确定耳道的变形从而确认佩戴者所说的单词。
  SciFi实验室还在积极参与康乃尔大学的Ignite项目来探索EchoSpeech技术的商业化。未来,研究人员们还将研发智能玻璃应用,用来跟踪用户的面部、眼睛和上半身的活动。张成称,未来智能玻璃将成为探知人们在日常环境中活动的重要个人智能平台。
  结语:智能可穿戴设备进入研发成熟期,三大瓶颈有待突破
  自2012年谷歌发布ProjectGlass智能眼镜以来,智能可穿戴设备市场可谓是备受关注。康奈尔大学研发的EchoSpeech声呐眼镜的出现证实了可穿戴设备的功能、应用场景不断得到优化拓展,可以说可穿戴设备行业已迈入研发的成熟期。
  无论是EchoSpeech还是其他智能可穿戴设备也好,目前在关键技术上仍有不少瓶颈需要一一突破,包括产品形态、AI算力等。首要问题是功耗大、续航时间短导致无法用户无法长时间使用,这一弊端在配备摄像头版本的EchoSpeech上暴露得尤为明显。其次是产品功能集成度还不够完善,三是产品设计上不够日常,这就需要研发更微型的硬件来配备产品形态。
  在用户实际需求和技术更新迭代的推动下,未来的EchoSpeech无论在可穿戴性、移动性、交互性以及持续性上将会有更大的改进。

洗地机行业内卷王追觅!用M12把洗地机和吸尘器融合了一、为啥要洗地机?我家,懒,有娃,不擅长做家务,对清洁类家电的需求,那真是来者不拒!吸尘器、电动拖布、扫地(扫拖一体)机器人、擦窗机器人、洗地机都用过。大浪淘沙,几经折腾……拳王泰森现状曝光!56岁拄拐杖老到认不出,自称人生或将走到尽作为拳击历史上最年轻的世界级拳王,泰森的名字如雷贯耳。也许有很多人对拳击比赛并不了解也不感兴趣,但是相信大家肯定都听说过他。泰森在巅峰时期可谓是打遍天下无敌手,几乎每一次出场都……男性也要经历更年期?如遇到这4种情况,或提示您中招大多数人都觉得只有女性会经历更年期,此时卵巢功能下降影响雌性激素的分泌,因此不会和年轻的女性一样正常来月经,进入更年期后身体有许多的变化,不再来月经外会有潮热出汗、皮肤老化加速……北京北京人游北京旅游业务员工立即加做一次核酸检测原标题:北京:北京人游北京旅游业务员工立即加做一次核酸检测在昨天(22日)举行的新闻发布会上,北京市文化和旅游局一级巡视员周卫民介绍,本市出现涉北京人游北京团队一日游疫情……孟买女人即使出身低微,也要争取属于自己的尊严印度片《孟买女人》描述一个富家千金,受到男友欺骗而被卖到妓院,在经历各种劫难,看透社会底层生活之后,逐渐成为当地的黑道领袖,最后演变成女权斗士,向社会争取权利的传奇事迹,整部电……新疆行那拉提绿色的立体画卷2022。7。2224。2022年7月22日星期五今天离开巴音郭楞州的巩乃斯镇,很快就进入伊犁州的新源县。随即就横穿独库公路到那拉提了。这一路已是热门的……酒店业各出奇招激发消费热潮,亲子游毕业游避暑游火爆今年暑假过半,随着跨省旅游的恢复,旅游市场回暖,暑期酒旅市场预期热度恢复超2021年的七成。根据携程的《2022暑期酒店预测报告》,上海、杭州、成都、北京成酒店热门搜索目的地,……32!中国男排杀进决赛,开心庆祝,张哲嘉关键球,奇兵一锤定音8月13日晚上19点,男排亚洲杯进行第二场半决赛,中国男排过招韩国。吴胜指导带领最强阵容出击,希望拿下晋级决赛。第一局,中国队局末表现不稳定,以2025惜败。第二局,中国队打出……国际金价持续下跌,该去抄底买黄金吗?中国大妈何时再出手?金价又跌了,中国大妈准备下手么?据中国新闻网报道,国际金价在2022年3月创下2070。42美元盎司的高点后,一路下跌,近期更是连续下跌五个星期,创下近十个月来的新低。金价为何……全球房价泡沫,又创新高十次危机,九次地产。说的是过去,全球十次金融危机,九次来源于地产。也正是因为这样,房地产泡沫,是所有国家都必须警惕的风险。尤其是疫情的这两年。全球经济增……21分12板!湖人放弃了他,加盟76人联手哈登吧,恩比德需要湖人队上赛季的阵容,老将太多,球队伤病问题也太多,今年休赛期,湖人队一雪前耻:全部签约年轻球员,湖人今夏连签了6名年轻球员(安德森、布莱恩特、朗尼沃克、克里斯蒂、特洛伊布朗和达……让一个人成功的定律螃蟹定律01hr在一个竹篓里,放了一群螃蟹。有一只螃蟹,拼命抓住竹篓的缝隙,想要逃出去。它好不容易爬到了竹篓的边沿。回头一看,好几只螃蟹抓住它的后腿。结果,想要逃走的螃蟹,……
春天多给孩子吃这10道家常菜,好吃好做,孩子最爱吃,身体长得春耕进行时大家好,欢迎大家来到我的美食自媒体,我是美食领域创作者锦绣V山东:专注美食,让生活更有味。今天为大家带来了几道家常美食的做法,这几道美食也是深受大家的喜欢,而且是很常……北京休闲农业和乡村旅游年接待近1800万人次新京报讯(记者耿子叶李木易)4月7日,记者从2023年首场北京市休闲农业十百千万畅游行动推介活动上了解到,2022年,北京市休闲农业和乡村旅游接待1787。8万人次,营业收入3……生化危机4重制版脑大病MOD艾什莉遇上碍事梨目前在PC游戏领域,MOD作者是非常活跃的群体。有的MOD可以提升游戏画质、为游戏增加新的玩法,甚至还有的MOD可以修复游戏BUG。但也有的游戏MOD脑洞大开,让人忍俊不禁。……规则收紧!美国公布电动汽车税收抵免电池要求细则出品搜狐汽车近日,据外媒报道,美国财政部和国税局发布了《通货膨胀削减法案》拟议的电动汽车相关规定的指导意见。美国《通货膨胀削减法案》将为最终在北美进行组装的电动汽车……痛失8。39亿!中国失去2023年亚洲杯举办权,杜兆才一意孤痛失8。39亿!中国失去2023年亚洲杯举办权,杜兆才一意孤行主动放弃?媒体人对杜兆才落网拍手称快,知名博主徐泽鑫在社交平台上,痛斥杜兆才作为60多岁的老人,经常去风花雪……闫学晶现身临沂捞金,唱一首歌就30万,场地简陋尘土飞扬还没舞4月4日,有网友晒出了一则视频,称:欢迎闫学晶老师来到我们大美泉庄。从画面来看,闫学晶当天现身山东临沂市,为桃花节活动加油助阵。她当天穿着一袭红色的及膝裙,脚踩细高跟,头……年薪41万元的打工人,自掏4亿元买下公司股份近日A股上市公司奥飞数据发布一则公告公司控股股东拟通过协议转让方式将其持有的3455万股公司股份转让给公司董秘合计金额约4亿元值得注意的是,据公告显示,这4亿元资金的来源……黄群慧委员亟待培育具有国际竞争力的数字产业集群来源:中国经济网政府工作报告提出,加快建设现代化产业体系。当前,现代化产业体系建设有哪些趋势?又该如何顺应这些趋势重点发力?围绕这些问题,中国经济网记者专访了全国政协委员……电视投屏居然收钱,爱奇艺逼反消费者!在这个人们越来越不爱看电视的时代,人们为什么还要买电视呢?这个问题很好回答。电视跟手机、电脑、iPad相比,唯一的优势就是那块超大高清屏幕。所以,现在电视的最大作用就是作……大反转!绯闻女主角现身了?霍华德点赞的啦啦队宝贝简单概括下就是杨毅电台近日爆料,说霍师傅在T1联赛打球期间跟位姑娘进行了深入交流。然后被人家找上门来,说是不赔偿就把事情捅给媒体。不过很快有人质疑真实性,同行朱彦硕……皖江五市联袂推介欢乐沿江游4月3日,安徽人游安徽欢乐沿江宣传推广活动在马鞍山长江不夜城景区启幕。马鞍山、芜湖、铜陵、池州、安庆等沿江五市文旅部门,以及来自浙江、江苏、上海、湖北、江西等20个沿江城市的1……泪目!中国队终于赢了,时隔十年再夺冠,人民日报央视发声盛赞力压美国!中国队终于赢了,时隔十年再夺冠,人民日报央视盛赞近段时间,冰雪赛场再次传来捷报!在已经结束的2023赛季世界青年自由式滑雪空中技巧锦标赛上,中国军团包揽了三个项……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网