2 个月前
PolyMaX:使用Mask Transformer进行通用密集预测
Xuan Yang; Liangzhe Yuan; Kimberly Wilber; Astuti Sharma; Xiuye Gu; Siyuan Qiao; Stephanie Debats; Huisheng Wang; Hartwig Adam; Mikhail Sirotenko; Liang-Chieh Chen

摘要
密集预测任务,如语义分割、深度估计和表面法线预测,可以很容易地表述为每个像素的分类(离散输出)或回归(连续输出)。由于全卷积网络的广泛使用,这种每个像素的预测范式一直很流行。然而,在最近的分割任务前沿,随着变换器架构(尤其是掩码变换器)的出现,社区正见证从每个像素预测向聚类预测的范式转变,即直接为一个掩码而不是单个像素预测标签。尽管发生了这一转变,基于每个像素预测范式的方法在其他需要连续输出的密集预测任务中仍占据主导地位,例如深度估计和表面法线预测。受到DORN和AdaBins在深度估计中通过离散化连续输出空间取得成功的启发,我们提出将基于聚类预测的方法推广到一般的密集预测任务中。这使得我们可以将密集预测任务统一到掩码变换器框架下。值得注意的是,由此产生的模型PolyMaX在NYUD-v2数据集的三个基准测试中表现出色,达到了当前最佳水平。我们希望我们的简单而有效的设计能够激发更多关于利用掩码变换器进行更多密集预测任务的研究。代码和模型将会公开发布。