6 个月前

摘要

主流的语义分割方法本质上是一种针对像素特征的密集判别分类器，即对 $p(\text{类别} \mid \text{像素特征})$ 的建模。尽管该范式结构简单直观，但其忽略了数据的底层分布 $p(\text{像素特征} \mid \text{类别})$ ，因而难以有效识别分布外（out-of-distribution）的数据。针对这一局限，本文提出 GMMSeg，一种新型的分割模型家族，其核心是基于联合分布 $p(\text{像素特征}, \text{类别})$ 的密集生成式分类器。对于每一类别，GMMSeg 通过期望最大化（Expectation-Maximization, EM）算法构建高斯混合模型（Gaussian Mixture Models, GMMs），以精确建模类别条件下的特征密度分布。与此同时，深层密集特征表示通过判别式方式端到端进行训练，即最大化 $p(\text{类别} \mid \text{像素特征})$ 。这种设计使 GMMSeg 兼具生成模型与判别模型的优势。在多种分割架构与主干网络下，GMMSeg 在三个封闭集（closed-set）数据集上均显著优于传统判别式方法。更令人瞩目的是，无需任何修改，GMMSeg 在开放世界（open-world）数据集上也表现出色。我们相信，本工作为相关领域提供了深刻的理论洞察与技术启示。