应用办公生活信息教育商业
投稿投诉
商业财经
汽车智能
教育国际
房产环球
信息数码
热点科技
生活手机
晨报新闻
办公软件
科学动态
应用生物
体育时事

CoCa多模态图像文本基础模型

  原文:YuJ,WangZ,VasudevanV,etal。CoCa:ContrastiveCaptionersareImageTextFoundationModels〔J〕。arXivpreprintarXiv:2205。01917,2022。
  探索大规模预训练基础模型在计算机视觉中具有重要意义,因为这些模型可以快速迁移到许多下游任务中。本文提出了对比Captioner模型(ContrastiveCaptioner,简称CoCa),结合对比损失和captioning损失来预训练图像文本编码器解码器基础模型,从而兼具了对比方法(如CLIP)和生成方法(如SimVLM)的优点。与标准的编码器解码器Transformer(所有解码器层都参与编码器输出的处理)不同,CoCa省略了解码器前半部分的交叉注意力来编码纯文本表示,并在后半部分用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像文本表示。我们在单模态图像和文本嵌入之间应用对比损失,在多模态解码器的输出上应用captioning损失,以自回归的方式预测文本tokens。通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像文本数据对CoCa进行了预训练。从经验上看,CoCa在广泛的下游任务上实现了SOTA性能,包括视觉识别(ImageNet、Kinetics400600700、MomentsinTime)、跨模态检索(MSCOCO、Flickr30K、MSRVTT)、多模态理解(VQA、SNLIVE、NLVR2)和图像描述(MSCOCO、NoCaps)。值得注意的是,CoCa在ImageNet图像分类任务上,采用零样本的方式获得了86。3的精度,使用冻结编码器获得了90。6的精度,使用微调编码器获得了91。0的SOTA精度。
  相关工作CLIP:从自然语言监督中学习可迁移的视觉模型ALIGN:基于噪声文本监督的视觉和视觉语言表示学习ViT:一图胜千言,用于大规模图像识别的TransformerVinVL:视觉语言模型中的视觉表示
  论文故事
  深度学习最近见证了基础语言模型的兴起,如BERT、T5、GPT3,这些模型在大规模数据上进行预训练,并通过零样本、小样本或迁移学习的方式展示了通用的多任务能力。与专业模型相比,针对大规模下游任务的预训练基础模型可以分摊训练成本,为模型达到并超过人类智能提供了契机。
  针对视觉和视觉语言问题,研究者们已经探索了几种基础模型:(1)开拓性工作表明,在图像分类数据集(如ImageNet)上,使用交叉熵损失预训练的单编码器模型是有效的。图像编码器提供了通用的视觉表示,可用于各种下游任务,包括图像和视频理解。然而,这些模型在很大程度上依赖于图像注释作为标记向量,并且没有吸收人类自然语言的知识,这阻碍了它们在涉及视觉和语言模态的下游任务中的应用。(2)最近,研究者们在大规模含有噪声的图像文本对上,利用对比损失对两个并行的编码器进行预训练,证明了图像文本基础模型的可行性。除了仅用于视觉任务的视觉嵌入外,形成的双编码器模型还可以将文本嵌入编码到相同的潜在空间,从而实现新的跨模态对齐功能,如零样本图像分类和图像文本检索。然而,由于缺少学习图像文本融合表示的联合组件,这些模型不能直接适用于视觉语言理解任务,如视觉问答(VQA)。(3)另一项研究探索了使用编码器解码器模型进行生成式预训练,以学习通用的视觉和多模态表示。在预训练期间,模型从编码器一侧获取图像,并在解码器输出上应用语言建模损失(或PrefixLM)。对于下游任务,解码器的输出可以用作多模态理解任务的联合表示。虽然通过预训练的编码器解码器模型获得了优异的视觉语言结果,但它们不会生成与图像嵌入对齐的纯文本表示,因此对于跨模态对齐任务来说,可行性和效率较低。
  在这项工作中,我们统一了单编码器、双编码器和编码器解码器范式,并训练了一个包含三种方法优点的图像文本基础模型。我们提出了对比Captioner模型(CoCa),该模型采用经过对比损失和captioning损失训练的编码器解码器架构。如图1所示,我们将Transformer解码器解耦为两部分,分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像文本表示。我们在图像编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号,有效地将上述三种预训练范式纳入到统一的方法中。
  图1:经过预训练的CoCa模型能够以零样本、冻结特征或端到端微调的方式应用于下游任务,包括视觉识别、视觉语言对齐、图像描述和多模态理解。
  CoCa利用对比学习来学习全局表示,并为细粒度的区域级特征添加文本描述,从而有利于图1所示的三类任务。CoCa表明,单一的预训练模型可以在零样本和小样本迁移任务上优于许多专业模型。例如,CoCa在ImageNet上获得了86。3的零样本图像分类精度,在MSCOCO和Flickr30k上获得了更好的零样本跨模态检索结果。通过冻结编码器,CoCa在ImageNet上的分类精度为90。6,在Kinetics400600700上的得分分别为88。088。581。1,在MomentsinTime上的得分为47。4。经过微调后,CoCa在ImageNet上的分类精度进一步达到了91。0,在VQA上的得分达到了82。3,在NoCaps上的得分达到了120。6。
  模型方法
  图2:CoCa的架构和训练目标。
  表1:CoCa的变体。图像编码器和文本解码器都是Transformer。
  图3:用于视频识别的CoCa。
  实验结果
  图4:CoCa与其他图像文本基础模型(不针对特定任务定制)和任务专用模型的比较。
  表2:使用冻结编码器或微调编码器进行图像分类和视频动作识别的结果。
  图5:模型大小对图像分类精度的影响。
  表3:在Flickr30K和MSCOCO数据集上的零样本图像文本检索结果。
  表4:在ImageNet、ImageNetA、ImageNetR、ImageNetV2、ImageNetSketch和ObjectNet上的零样本图像分类结果。
  表5:在MSRVTT测试集上的零样本视频文本检索结果。
  表6:CoCa与其他视觉语言预训练模型在多模态理解任务上的比较。
  表7:在MSCOCO和NoCaps数据集上的图像描述结果。
  图6:CoCa以NoCaps图像作为输入生成的文本标题示例。
  表8:CoCa的消融实验。默认设置用粗体显示。
  表9:视觉识别实验中使用的超参数。
  表10:多模态实验中使用的超参数。
  总结讨论
  在这项工作中,我们提出了图像文本基础模型CoCa,将现有的视觉预训练范式和自然语言监督统一起来。CoCa在不同来源的图像文本数据上进行了预训练,在编码器解码器模型中有效地结合了对比损失和captioning损失。CoCa在广泛的视觉和视觉语言问题上获得了一系列最先进的表现。我们的工作弥合了各种预训练方法之间的差距。我们希望CoCa能为图像文本基础模型的研究提供新的方向。
  多模态人工智能
  欢迎关注多模态人工智能公众号,一起进步

白酒医药医疗中药军工农业,加仓还是撤退?直接说答案失败的投资往往没有仔细考虑清楚就进行,没有意识到人性的弱点禀赋效应,总认为可以通过摊低成本将亏损转化为盈利。对市场必须有一颗敬畏的心,方可走得更远。关注我,结伴在股海中一起成长……赛后观感凌晨E组首轮欧冠小组赛结束,切尔西01不敌萨格勒布迪纳摩,米兰11战平萨尔茨堡红牛。客战萨尔茨堡红牛,前面提到过萨尔茨堡冲击力很强,两个前锋的能力很突出。今天的比赛验证了……全球电费最贵和最便宜的都是哪个国家?西元前600年,古希腊人已观察到店的存在,人们发现摩擦过后的琥珀可以吸引轻小的物体,而这种神奇的吸引力正式进店。19世纪初,交流电之父尼古拉特斯拉成功将电力以无线传输形式送到电……超美壁纸!阳春八甲仙湖风光旖旎南方拍客看广东雨过天晴,阳江市阳春八甲仙湖,碧波万顷,水作青罗带,山如碧玉簪。入夜后,星汉灿烂,倒映在湖面,宛如瑶池仙境。据了解,八甲仙湖临近南海,海洋气流受山体阻碍,常有雨云徘徊常驻……20万级智能纯电7座2023款AIONVPlus上市记者:张涛许愿周啸8月26日,在2022年成都国际车展埃安展台,迎来了神7座驾2023款AIONVPlus的上市,新车共推出10款车型,补贴后官方指导价为18。98万元2……人生得意处记得以前上语文课时,一位退休返聘的老师(我们是他职业生涯的最后一届)给我们最后上课时说:人生到最后啊,最美不过潘驴邓小闲。他给我们解释的是当你年老时,还能貌比潘安,有驴子……他们用三年尝试上百万次,就为了打通游戏开服时的一个关卡怪物马戏团文不论你玩不玩《明日方舟》,都可以了解一下克洛丝和关卡112的故事。克洛丝《明日方舟》中的一个三星干员,就是你抽卡时,最容易跳出来充数的那种低级干员。由于……行业玩家全部开始收费试水智能取餐柜迈入下一阶段8月2日,在合肥,美团取餐柜部分区域开始面向骑手收费。消息并没有引起太多关注,但对行业意义重大:这意味着,行业几乎所有玩家,目前已经在免费的道路上掉头,开启市场化商业运营。……2022Blaston电竞锦标赛将于8月1日开始ResolutionGames日前宣布了其室内1V1射击游戏《Blaston》的新电子竞技锦标赛。该比赛面向北美和欧洲的所有玩家开放,奖金池价值10000美元。据悉,20……热血传奇当年几乎不能单挑的BOOS传奇的怪物当年多的数不胜数,其中最主要还是传奇里面的BOOS能大爆装备,但是也很难推倒,当年几乎是很多人的噩梦,很多都是要整个行会一起出动才能推到,那你还记得当年最难打的3个B……16岁长到2米28,成巨人!统治同年龄段内线!又一巨兽出现?里奥克斯16岁身高便有2米28!这高度实在是太吓人了,他不用踮脚,就能轻松抓到篮筐,他站在三秒区里就是一堵高墙,对手突破时便心有忌惮,生怕一不小心就会吃到一记火锅大帽;当他在内……装修买家电急不得,分享4款实用高性价比产品,都是大品牌有保障进入金九银十,市场对家电产品的需求愈发旺盛。不过挑选家电并非易事,如果产品不合适可能会影响未来十余年的体验。所以今天我们就推荐几款质量可靠、性价比高的家电。松下265升家……
堪称神仙打架!11月这些游戏大作不可错过在10月我们迎来了诸如《守望先锋2》等经典好游,而在本月也有多款IP大作扎堆发售,其中作为今年最受期待的游戏之一《战神:诸神黄昏》也将于本月解锁。除了老IP续作上线以外,……人到中年,兄弟姐妹走得太近,是一场灾难保持距离,不近不远。这世间,除了父母之外,与我们最亲最近的人,就是兄弟姐妹。兄弟姐妹各自成家以后,不仅是亲人,也是亲戚。所以交往相处中……为什么那么多年轻人选择网贷随着社会的发展,年轻人的经济压力越来越大,钱越来越不够用,很多人都会选择去贷款,但偏偏有很多人喜欢在手机上点网贷,而不去正规银行贷款。相对银行贷款,那些网贷的利息要高出许……与郑少秋和解不再刻意减肥后,35岁郑欣宜成了真正的天后传媒樱桃派系【头条理娱君】特约作者,看娱乐热点深度解读,认准理娱君!继2022年7月在金曲颁奖典礼勇夺女歌手大奖的桂冠之后,1月3日,郑欣宜接连斩获叱咤乐坛我最喜爱的女歌……华为之后,又一家国产手机厂商加码国产高端屏幕研发!正式量产!这几年国产芯片等高精尖技术领域遭遇了不少卡脖子问题,这也在提醒我们自主核心技术研发需要加快投入。就拿华为来说,在5G领域的领先优势、在自研4纳米麒麟9000芯片的优势加持下,让……1079。29亿元!2022川渝国企高竹新区行签约合作项目3来源:【重庆日报网】12月27日,2022川渝国企高竹新区行活动举行,重庆市国资委、渝北区人民政府携手四川省国资委、广安市人民政府推动在川渝的央企、省(市)属国企负责人前……里商盘活两山资源赋能共同富裕来源:【淳安融媒体中心】通讯员应巧群眼下是千岛湖旅游的淡季,但在里商乡的四星级精品酒店仁里美宿却依然门庭若市。作为利用大千古街闲置房屋提升改造而走红的网络人气酒店,……网络为什么断网了还能ping通127。0。0。1你女神爱不爱你,你问她,她可能不会告诉你。但网通不通,你ping一下就知道了。可能看到标题,你就知道答案了,但是你了解背后的原因吗?那如果把127。0。0。1换成0。0。0。0……新疆玛纳斯湿地迎来今年首批越冬大天鹅央视网消息:位于新疆昌吉州的玛纳斯国家湿地公园是候鸟迁徙的重要驿站,也是候鸟在新疆北部重要的栖息地和繁殖地。这两天,来这里越冬的首批大天鹅已陆续抵达。在玛纳斯湿地的核心保……一周内送了三次温暖,马刺与波波维奇才是湖人和詹姆斯的真爱两年前还是总冠军的湖人突然间就掉到连附加赛都进不去的位置,本赛季更是已经彻底没戏,队内矛盾不断,还受到伤病侵袭,球队连败之际,詹姆斯却突然受伤,戴维斯暴君崛起,詹姆斯迅速归来,……王湘蓉家乡是门大课,家乡教育不可缺失雪纷纷扬扬下着,父亲在扫雪,母亲在灶房烧饭,孩童在雪中嬉闹,炊烟缭绕的村庄偶尔有鸡鸣和犬吠声打破沉静。这样的画面,大抵会击中人心中最温软的地方,也会勾起许多人对家乡、对童年时光……烟火里的冬天我是一个怕冷喜暖的人,即便是炎热的盛夏也很少开空调,漫长的冬季对我来说就是一种煎熬。随着地暖的普及,今年冬天我家也开了地暖,,我怀着期待与欣喜的心情,等待着地暖的到来。星期六我……
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网