
摘要
两阶段及基于查询的实例分割方法已取得显著成果,但其生成的分割掩码仍较为粗糙。本文提出了一种名为Mask Transfiner的高精度、高效率实例分割方法。与传统在密集张量上操作不同,我们的Mask Transfiner将图像区域分解并表示为四叉树结构。该基于Transformer的方法仅对检测到的易错树节点进行处理,并并行地自我修正这些错误。尽管这些稀疏像素仅占图像总像素的一小部分,却对最终掩码质量至关重要。因此,Mask Transfiner能够在极低计算开销下生成高度精确的实例分割掩码。大量实验表明,Mask Transfiner在三个主流基准测试上均优于当前主流实例分割方法,在COCO和BDD100K数据集上分别将两阶段与基于查询的框架的掩码平均精度(mask AP)提升+3.0,在Cityscapes数据集上将边界平均精度(boundary AP)提升+6.6。我们的代码与训练好的模型将公开发布于 http://vis.xyz/pub/transfiner。