8 个月前

计算机视觉

Xuan Yang Liangzhe Yuan Kimberly Wilber Astuti Sharma Xiuye Gu Siyuan Qiao Stephanie Debats Huisheng Wang Hartwig Adam Mikhail Sirotenko

摘要

密集预测任务，如语义分割、深度估计和表面法线预测，可以很容易地表述为每个像素的分类（离散输出）或回归（连续输出）。由于全卷积网络的广泛使用，这种每个像素的预测范式一直很流行。然而，在最近的分割任务前沿，随着变换器架构（尤其是掩码变换器）的出现，社区正见证从每个像素预测向聚类预测的范式转变，即直接为一个掩码而不是单个像素预测标签。尽管发生了这一转变，基于每个像素预测范式的方法在其他需要连续输出的密集预测任务中仍占据主导地位，例如深度估计和表面法线预测。受到DORN和AdaBins在深度估计中通过离散化连续输出空间取得成功的启发，我们提出将基于聚类预测的方法推广到一般的密集预测任务中。这使得我们可以将密集预测任务统一到掩码变换器框架下。值得注意的是，由此产生的模型PolyMaX在NYUD-v2数据集的三个基准测试中表现出色，达到了当前最佳水平。我们希望我们的简单而有效的设计能够激发更多关于利用掩码变换器进行更多密集预测任务的研究。代码和模型将会公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Xuan Yang Liangzhe Yuan Kimberly Wilber Astuti Sharma Xiuye Gu Siyuan Qiao Stephanie Debats Huisheng Wang Hartwig Adam Mikhail Sirotenko

摘要

密集预测任务，如语义分割、深度估计和表面法线预测，可以很容易地表述为每个像素的分类（离散输出）或回归（连续输出）。由于全卷积网络的广泛使用，这种每个像素的预测范式一直很流行。然而，在最近的分割任务前沿，随着变换器架构（尤其是掩码变换器）的出现，社区正见证从每个像素预测向聚类预测的范式转变，即直接为一个掩码而不是单个像素预测标签。尽管发生了这一转变，基于每个像素预测范式的方法在其他需要连续输出的密集预测任务中仍占据主导地位，例如深度估计和表面法线预测。受到DORN和AdaBins在深度估计中通过离散化连续输出空间取得成功的启发，我们提出将基于聚类预测的方法推广到一般的密集预测任务中。这使得我们可以将密集预测任务统一到掩码变换器框架下。值得注意的是，由此产生的模型PolyMaX在NYUD-v2数据集的三个基准测试中表现出色，达到了当前最佳水平。我们希望我们的简单而有效的设计能够激发更多关于利用掩码变换器进行更多密集预测任务的研究。代码和模型将会公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供