11 天前

SED:一种用于开放词汇语义分割的简单编码器-解码器

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang
SED:一种用于开放词汇语义分割的简单编码器-解码器
摘要

开放词汇语义分割旨在从一个开放的类别集合中区分图像像素属于不同的语义类别。现有大多数方法依赖于预训练的视觉-语言模型,其核心挑战在于如何将适用于图像级任务的模型迁移至像素级分割任务。本文提出一种简洁的编码器-解码器架构,命名为SED(Semantic Embedding Decoder),用于开放词汇语义分割。该方法包含基于分层编码器的成本图生成机制以及具有类别早期剔除功能的渐进式融合解码器。具体而言,分层编码器-based成本图生成模块采用分层主干网络(而非普通Transformer)来预测像素级的图像-文本匹配成本图。与普通Transformer相比,分层主干网络能够更有效地捕捉局部空间信息,并且其计算复杂度与输入尺寸呈线性关系,显著提升了效率。在解码器部分,我们设计了一种自顶向下的渐进式融合结构,将多尺度主干特征与成本图进行融合,以实现精细的像素级分类。为进一步加速推理速度,我们在解码器中引入类别早期剔除机制:在解码器的早期层即剔除大量不存在于当前图像中的类别,从而大幅减少后续计算量。该策略在不损失精度的前提下,实现最高达4.7倍的推理加速。我们在多个开放词汇语义分割数据集上进行了实验,充分验证了SED方法的有效性。当使用ConvNeXt-B主干网络时,SED在ADE20K数据集(150个类别)上达到了31.6%的mIoU指标,单张图像推理时间仅为82毫秒(ms),运行于单张A6000显卡上。相关代码与模型将开源,地址为:https://github.com/xb534/SED.git。

SED:一种用于开放词汇语义分割的简单编码器-解码器 | 最新论文 | HyperAI超神经