中科大博士一作斩获ICCV2021最佳论文奖!中国学者占半壁
来源:ICCV
编辑:桃子小咸鱼【新智元导读】ICCV2021最佳论文新鲜出炉!微软亚洲研究院团队拔得头筹,获得了最佳论文奖。还有最佳学生论文,最佳论文荣誉提名,PAMITC奖全公布。其中,中国学者数量几乎占据半壁江山,超过美国近一半。
ICCV最佳论文来了!
今年ICCV2021公布了最佳论文奖(马尔奖),最佳学生论文奖,最佳论文荣誉提名,PAMITC奖多个奖项。
其中,微软亚洲研究院团队拔得头筹,获得了最佳论文奖,论文一作为中科大刘泽。苏黎世联邦理工大学和微软研究人员共同摘得最佳学生论文奖。
还有4篇最佳论文荣誉提名,PAMITC奖分设的4个奖项颁给了过往杰出研究的学者。
作为计算机视觉领域三大会议之一的ICCV(IEEEInternationalConferenceonComputerVision)每年都会吸引众多AI研究人员参会。
不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV,ICCV在世界范围内每2年召开一次。
获奖论文一览:微软亚洲院摘桂冠
最佳论文奖马尔奖
SwinTransformer:HierarchicalVisionTransformerUsingShiftedWindows
论文地址:https:arxiv。orgpdf2103。14030。pdf
这篇文章介绍了一种新的、可以应用于计算机视觉里的Transformer,SwinTransformer。
Transformer解决计算机视觉问题的挑战主要来自两个领域:图像的比例差异很大,而且图像具有很高的分辨率,在有些视觉任务和如语义分割中,像素级的密集预测对于Transformer来说是难以处理的,因为其selfattention的计算复杂度与图像大小成二次关系。
为了克服这些问题,SwinTransformer构建了分层Transformer特征图,并采用移位窗口计算。移位窗口方案通过将selfattention计算限制在不重叠的局部窗口(用红色标出),同时还允许跨窗口连接,带来了更高的效率。
SwinTransformer通过从小尺寸的面片(用灰色勾勒)开始,并逐渐合并更深的Transformer层中的相邻面片来构建分层表示。这种分层体系结构可以灵活地在各种尺度上建模,并且在图像大小方面具有线性计算复杂度。线性计算复杂度是通过在分割图像的非重叠窗口(用红色标出)内局部计算自我注意来实现的。每个窗口中的面片数量是固定的,因此复杂度与图像大小成线性关系。
SwinTransformer在图像分类、目标检测和语义分割等识别任务上取得了很好的性能,在三个任务中,SwinTransformer的时间延迟与ViT,DeiT和ResNeXt模型相似,但性能却得到了大幅提升:COCOtestdev58。7boxAP和51。1maskAP,力压之前的最先进结果2。7boxAP和2。6maskAP。在ADE20K语义分割任务中,SwinTransformer在验证集上获得了53。5mIoU,比以前的最先进水平(SETR)提高了3。2mIoU。在ImageNet1K图像分类中,它也达到了87。3的最高精度,充分展现Transformer模型作为新视觉backbone的潜力。
该论文一作刘泽是中科大的学生,在微软亚洲研究院实习。他于2019年获中国科技大学学士学位,并以最高荣誉获得郭沫若奖学金。
个人主页介绍,其2篇论文和1篇Oral被ICCV2021接收。
个人主页:https:zeliu98。github。io
最佳学生论文奖
PixelPerfectStructureFromMotionWithFeaturemetricRefinement
论文地址:https:arxiv。orgpdf2108。08291。pdf
找到跨多个视图可重复的局部特征是稀疏三维重建的基石。经典的图像匹配范例一劳永逸地检测每个图像的关键点,这可能产生定位不良的特征,并将大的误差传播到最终的几何图形。
这篇文章通过直接对齐来自多个视图的低级图像信息来细化SfM(StructurefromMotion),先在任何几何估计之前调整初始关键点位置,然后细化点和相机姿势作为后处理。
本文认为精确的大规模SfM(StructurefromMotion)方法是使用稀疏的特征执行初始粗略估计,然后使用局部精确的密集特征进行细化。这种改进对于大的检测噪声和外观变化是鲁棒的,因为它基于神经网络预测的密集特征来优化特征度量误差。这显著提高了各种关键点检测器的相机姿态和场景几何的准确性。
最佳论文荣誉提名
论文1:MipNeRF:AMultiscaleRepresentationforAntiAliasingNeuralRadianceFields
论文地址:https:arxiv。orgpdf2103。13415。pdf
谷歌和UC伯克利研人员在本文提出了一种名为mipNeRF的扩展解决方案。
就NeRF来说,每条光线的像素渲染都需要查询多层感知器上百次。而mipNeRF的视线以连续值的比例表示场景,通过高效渲染消除反锯齿圆锥锥体取代光线。
研究结果表明,mipNeRF减少了混叠瑕疵,将NeRF表示精细细节的能力显著提高,在速度上比NeRF快7,大小仅为NeRF的一半。此外,mipNeRF在数据集上降低了17的平均错误率,在多尺度变体上降低了60的平均错误率。
论文2:OpenGAN:OpenSetRecognitionviaOpenDataGeneration
论文地址:https:arxiv。orgpdf2104。02939。pdf
机器学习过程中需要分析与训练数据不同的测试数据。为了和K闭集数据集区分,这通常在Kway分类中被表述为开集识别。
一般来说,开集识别有2种处理方案。然而,由于过度拟合训练离散值,这2种方案一种不能很好地推广到不同的开放测试数据,而另一种由于GAN训练不稳定导致效果不好。
来自卡内基梅隆大学的论文一作ShuKong在本文中基于上述问题,提出了全新解决方案OpenGAN,它在三个方面不同于其他使用GAN的开集方法:通过学习一个鲁棒的开集闭集鉴别器充当开集似然函数;用假数据(由生成器合成)和真实的开集训练示例训练鉴别器;用OTS特征而不是RGB像素来训练GAN。
OpenGAN在包括图像分类和像素分割在内的各种任务中,在开放集识别方面的性能明显优于先前的工作,证明了OpenGAN可以提高其他基于GAN的开集方法的准确性。
华人学者ShuKong现在是卡内基梅隆大学在读计算机博士后。他的研究兴趣包括计算机视觉、机器学习、以及其在现实世界中的应用和整合。
目前的研究重点为visualperceptionandlearninginanopenworld,并在自己的书对这个内容中简要地进行了扩展。
个人主页:https:www。cs。cmu。edushuk
还有另外两篇论文获得荣誉提名,如下:
论文3:ViewingGraphSolvabilityviaCycleConsistency
论文地址:
https:openaccess。thecvf。comcontentICCV2021papersArrigoniViewingGraphSolvabilityviaCycleConsistencyICCV2021paper。pdf
在SfM(StructurefromMotion)中,观察图的顶点对应摄像机,边代表基本矩阵。已知的理论要么不能完全表征所有观察图的可解性,要么非常难以计算,因为它们需要求解一个含有大量未知数的多项式方程组。
本文提供了一种新的公式和算法来确定观察图是否可解,即它唯一地确定一组投影摄像机。主要方式是利用循环一致性来减少未知量。
这种算法分为三步走,第一步要分类九个节点内的所有极小图;第二步将实际的可解性测试扩展到具有90个节点的最小图;最后,证明有限可解性并不意味着可解来回答一个开放的研究问题。
论文4:CommonObjectsin3D:LargeScaleLearningandEvaluationofRealLife3DCategoryReconstruction
论文地址:https:arxiv。orgpdf2109。00512。pdf
由于真实的以类别为中心的三维标注的数据不好获取,如果要学习三维对象的类别,传统方法主要在合成数据集上进行训练和评估。
这项工作的主要贡献是收集了一个与现有合成数据相似的大规模真实数据集,名为CommonObjectsin3D,包含用相机姿态和地面真实3D点云来标注对象类别的真实多视图图像。该数据集总共包含来自近19000个视频的150万帧,对应50个MSCOCO类别的对象。
利用这个新数据集对几种新的视图合成和以类别为中心的三维重建方法进行了第一次大规模的评估。论文还贡献了NerFormer,一种新颖的神经渲染方法,利用强大的Transformer在给定少量视图的情况下重建对象。
PAMITC奖
和往年一样,ICCV21还颁布了过往杰出研究类奖项PAMITC奖,其中包括4个奖项:AzrielRosenfeld终身成就奖、杰出学者奖,Everingham奖和ICCVHelmholtz奖。
AzrielRosenfeld终身成就奖颁发给了加州大学Berkeley分校电气工程与计算机科学系教授RUzenaBajcsy,以表彰其长期以来在计算机视觉领域所作出的重大贡献。
RUzenaBajcsy是美国的工程师和计算机科学家,任职加州大学伯克利分校。2001年,她获得了ACM人工智能促进协会AllenNewell奖,并在2002年11月的《探索》杂志上被评为科学界最重要的50位女性之一。
由于她在机器人和自动化领域的贡献,她获得了本杰明富兰克林计算机和认知科学奖章(2009年)和IEEE机器人和自动化奖(2013年)。
杰出学者奖项颁给了两位研究者,加州理工学院教授PietroPerona和法国国家信息与自动化研究所研究员CordeliaSchmid。
还有Everingham奖颁发给了KITTI视觉基准团队和Detectron对象检测和分割软件团队。
今年ICCVHelmholtz奖颁给了十年前对计算机视觉领域产生重大影响的三篇论文,以奖励对计算机视觉领域做出重要贡献的工作。
中国学者占据半壁江山,谷歌66篇一骑绝尘
一直以来,ICCV论文录用率非常低,却是三大会议中公认级别最高的。
今年在论文收稿和入围数量方面,ICCV21共收到论文投稿6236篇,最终入围1617篇,接收率约为25。9,较上届的25有所上升。
就接收论文分布领域而言,接收数量都超过了80篇的领域有:迁移小样本无监督学习(Transferlowshotunsupervisedlearning)、图像视频合成(imageandvideosynthesis)、识别和分类(detectionandlocalizationin2Dand3D),位列前三。
还有一些新领域,比如关于可解释性AI、公平、道德等相关主题论文数量也较往年有所上涨。
就机构组织来说,今年ICCV上,谷歌近66篇论文入选,实力霸榜。
国内,商汤科技及联合实验室共计50篇论文入选ICCV2021,同时在MFR、LPCV等多项重要竞赛中夺冠。
放眼全球,中国论文数量几乎占据了半壁江山(45。7),赶超美国(23。6)。
据Aminer统计,起源人工智能研究院的邵岭教授,以及罗彻斯特大学助理教授ChenliangXu,还有南京大学计算机科学与技术系王利民共入选3篇,位列华人榜首。
参考资料:
https:www。aminer。cnconficcv2021roster
https:twitter。comCSProfKGD