
摘要
本文探讨了如何在最小化人工交互成本的前提下,实现精确的物体分割掩码生成。为此,本文提出了一种“内外引导”(Inside-Outside Guidance, IOG)方法。具体而言,该方法利用一个位于目标物体中心附近的内部点击点,以及位于包围目标物体的紧密边界框对称角落(如左上与右下,或右上与左下)的两个外部点击点,总共仅需一次前景点击和四次背景点击即可完成分割标注。所提出的IOG方法具有四大优势:(1)两个外部点击点有助于排除其他物体或背景带来的干扰;(2)内部点击点可有效消除边界框内部与目标无关的区域;(3)内部与外部点击点直观易辨,显著降低了在处理极端样本时当前先进方法DEXTR易产生的标注混淆问题;(4)该方法天然支持后续添加额外点击进行进一步修正,具备良好的交互灵活性。尽管方法设计简洁,IOG在多个主流基准数据集上均达到了当前最优的分割性能,并展现出强大的跨领域泛化能力,适用于街景、航拍图像及医学图像等多种不同场景,且无需任何微调。此外,本文还提出了一种简单的两阶段解决方案,使IOG能够基于现有数据集中现成的边界框(如ImageNet和Open Images中的标注)生成高质量的实例分割掩码,充分体现了IOG作为标注工具的优越性。