2 个月前

用于通用图像分割的掩码注意力Mask Transformer

Bowen Cheng; Ishan Misra; Alexander G. Schwing; Alexander Kirillov; Rohit Girdhar
用于通用图像分割的掩码注意力Mask Transformer
摘要

图像分割是指将具有不同语义(例如类别或实例归属)的像素进行分组,其中每种语义选择定义了一个任务。尽管各个任务之间的语义差异较大,当前的研究重点仍然在于为每个任务设计专门的架构。本文介绍了一种新的架构——掩码注意力掩码变换器(Mask2Former),该架构能够应对任何图像分割任务(全景分割、实例分割或语义分割)。其关键组件包括掩码注意力机制,通过在预测的掩码区域内限制交叉注意力来提取局部特征。除了至少将研究工作量减少三倍外,Mask2Former在四个流行数据集上的表现显著优于最佳的专用架构。尤为值得一提的是,Mask2Former在全景分割(COCO数据集上的PQ得分为57.8)、实例分割(COCO数据集上的AP得分为50.1)和语义分割(ADE20K数据集上的mIoU得分为57.7)方面均创下了新的最先进水平。

用于通用图像分割的掩码注意力Mask Transformer | 最新论文 | HyperAI超神经