6 个月前

摘要

基于点击的交互式图像分割旨在仅通过少量用户点击即可提取目标物体。当前主流方法普遍采用分层主干网络（hierarchical backbone）架构。近年来，结构简单的非分层视觉Transformer（Vision Transformer, ViT）在密集预测任务中展现出强劲竞争力，其设计使得原始ViT可作为基础模型，在无需为预训练重新设计分层主干的情况下，通过微调即可适配下游任务。尽管该设计简洁且已被证明有效，但其在交互式图像分割领域的应用尚未得到充分探索。为填补这一空白，本文提出SimpleClick——首个采用非分层主干网络的交互式分割方法。在该主干基础上，我们引入了一种对称的补丁嵌入层（symmetric patch embedding layer），仅对主干网络进行微小修改，即可将用户点击信息有效编码至网络中。在使用掩码自编码器（Masked Autoencoder, MAE）预训练的非分层主干基础上，SimpleClick实现了当前最优的分割性能。尤为突出的是，该方法在SBD数据集上取得了4.15 NoC@90的指标，相比此前最优结果提升21.8%。在医学图像上的大量实验进一步验证了该方法的强泛化能力。此外，我们还为SimpleClick设计了一种极轻量级的ViT主干网络，并提供了详尽的计算效率分析，充分证明其作为实际图像标注工具的可行性与实用性。

源 PDF