17 天前

K-Net:迈向统一的图像分割

Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
K-Net:迈向统一的图像分割
摘要

尽管语义分割、实例分割与全景分割在本质上具有密切关联,但以往研究通常采用各自独立且专门化的框架来处理这些任务。本文提出了一种统一、简洁且高效的新框架——K-Net,用于同时解决这三类本质上相似的任务。K-Net通过一组可学习的卷积核实现对实例和语义类别的一致性分割,其中每个卷积核负责生成一个潜在实例或一类“stuff”类别的掩码。为解决不同实例之间难以区分的问题,本文提出一种卷积核更新策略,使每个卷积核具备动态性,并根据输入图像中其所属的有意义组别进行条件化调整。K-Net可采用二分匹配(bipartite matching)实现端到端训练,其训练与推理过程天然无需非极大值抑制(NMS)且不依赖边界框(box-free)。在不依赖复杂技巧的前提下,K-Net在MS COCO测试开发集上的全景分割任务中取得了55.2%的Panoptic Quality(PQ)性能,超越此前所有已发表的单模型最优结果;在ADE20K验证集上的语义分割任务中达到54.3%的mIoU,同样领先于现有方法。此外,其在MS COCO上的实例分割性能与Cascade Mask R-CNN相当,同时推理速度提升50%至90%。相关代码与模型已开源,地址为:https://github.com/ZwwWayne/K-Net/。