图像分割技术在计算机视觉领域十分重要,通过它计算机才能将图像中的不同对象进行分割,进而理解图像内容并用于下一步的处理,这一技术被用于自动驾驶、图像识别等中。 一般来说图像分割任务是通过为属于同一类的每个像素分配标签来实现的,而其中的任务也通常涉及到对对象进行分类、检测和标记等。 图像分割大体可以分为三类:语义分割、实例分割和全景分割。语义分割旨在为图像中的所有像素分配一个类标签;而实例分割的目的则是清楚地检测出图片中某个类的每个实例;全景分割则融合了这两种任务,是近年来新兴的分支,它主要通过预测一组不重叠的掩码及其对应的类标签来完成任务,如下图所示。 图语义分割、实例分割和全景分割(来源:opengenus) 目前的全景分割方法中的对掩码的预测这一步骤,都是通过采用多个代理子任务逐渐逼近目标来完成的。这使得之前的全景分割方法比较依赖代理子任务。 例如PanopticFPN方法的架构,就是采用了含有三个代理子任务层级的基于框的管道,如下图中粉红颜色的数状结构所示,全景分割掩码任务被分解为合并语义和实例分割这两个子任务,而实例分割又被进一步分解为框检测和基于框的分割,而框检测是通过锚回归和锚分类实现的。 (来源:CVF) 而其中的每个层级都含有手动设计的模块,这样,尽管这些子任务本身都有着很好的结果方案,但是当将其用于全景分割时,会为整体带来不希望有的伪影。 为了解决这一问题,谷歌研究院联合大学专家提出了一种端到端的方法MaXDeepLab。该方法直接从图像中来预测全景分割的掩码,大大简化了整个过程,而且全程不涉及手动模块。 这一研究由约翰霍普金斯大学的王慧宇(HuiyuWang)和来自谷歌研究的朱裕琨(YukunZhu)等人共同完成。 相关论文以《MaXDeepLab:使用掩模转换器的端到端全景分割方法》(MaXDeepLab:EndtoEndPanopticSegmentationwithMaskTransformers)为题发表在了CVF上。 MaXDeepLab方法的提出,受到了同样也是端到端的DETR方法的启发。但是与DETR方法不同的是,该方法并非采用框监测,而是采用了掩码转换器,来对一组掩码以及每个掩码所对应的语义标签进行预测。 在该方法中,输出掩码和类的优化目标,采用的是全景质量(PanopticQualityPQ)。而两个标记为类的掩码之间的相似度度量,在该方法中则被定义为二者之间的掩码相似度以及两者的类相似度的乘积。 该模型在被训练逐渐不断接近优化目标的过程中,采用了一对一的二分匹配、将地面真相掩码最大化以及预测掩码之间的相似性等方法。MaXDeepLab就是通过这样的方式,实现了端到端的训练和推理,并且有效去除了此前的无论是基于框的还是无框的方法中都含有的手工模块。 (来源:CVF) 为了对MaXDeepLab进行评估,研究团队还将其在目前最具挑战性的全景分割数据集之一COCO上进行了训练。同时团队还将结果与此前最先进的无框方法AxialDeepLab、以及之前最先进的基于框的方法DetectoRS在COCO上训练的结果进行了对比。 结果显示,即使在没有测试时间增强(TesttimeaugmentationTTA)的前提下,MaXDeepLab模型在数据集COCO中的训练最终也得出了PQ值为51。3的好成绩。该成绩比使用TTA的AxialDeepLab方法的PQ值高出了7。1,比使用TTA的DetectorRS也高出了1。7。 图不同全景分割方法在COCO中的验证集中的训练结果(来源:CVF) 图不同全景分割方法在COCO中的测试开发集中的训练结果(来源:CVF) 另外,为了与同样是端到端的基于框的DETR方法进行对比,团队还对MaXDeepLab进行了调整,并将其在COCO数据集中的验证集(valset)和测试开发集(testdevset)上进行了训练。 团队将该模型调整为参数数量和MAdds量都和DETR相当的轻量级模型MaXDeepLabS,结果显示,相比DETR,MaXDeepLabS模型的PQ值不仅在验证集中高出3。3,在测试开发集中也高出3。0。 参考资料: https:iq。opengenus。orgpanopticsegmentation https:openaccess。thecvf。comcontentCVPR2021papersWangMaXDeepLabEndtoEndPanopticSegmentationWithMaskTransformersCVPR2021paper。pdf