
摘要
当前的实例分割方法可分为两类:基于分割的方法先进行分割再进行聚类,以及基于提议的方法先检测目标,再通过重池化(repooling)为每个实例提议预测掩码。在本工作中,我们提出一种单阶段方法——EmbedMask,该方法通过融合两类方法的优势,实现了统一。与基于提议的方法类似,EmbedMask建立在检测模型之上,因而具备强大的检测能力。同时,EmbedMask引入额外的嵌入模块,为像素和提议生成嵌入表示;若像素属于同一实例,则其像素嵌入会受到对应提议嵌入的引导。通过这种嵌入耦合机制,当像素嵌入与提议嵌入相似时,该像素即被分配至该提议的掩码中。这种像素级聚类策略使EmbedMask能够在不依赖重池化的情况下生成高分辨率掩码,避免细节丢失;而提议嵌入的存在则简化并强化了聚类过程,从而在保持高性能的同时显著提升运行速度,优于传统的基于分割的方法。在不依赖任何额外技巧的前提下,EmbedMask在性能上可与代表性的两阶段方法Mask R-CNN相媲美,并能在更高效率下生成更为精细的掩码。代码已开源,地址为:github.com/yinghdb/EmbedMask。