6 个月前

计算机视觉

Bingxin Ke Anton Obukhov Shengyu Huang Nando Metzger Rodrigo Caye Daudt Konrad Schindler

摘要

单目深度估计是计算机视觉中的一项基础任务。从单张图像恢复三维深度在几何上属于病态问题，需要依赖对场景的深入理解，因此深度学习的兴起带来了该领域的突破性进展。近年来，单目深度估计模型的性能不断提升，其模型容量也从相对简单的卷积神经网络（CNN）发展到大规模的Transformer架构。然而，当面对训练数据中未见过的内容或布局时，现有方法往往表现不佳，这是因为其对视觉世界的认知受限于训练阶段所见数据，难以实现对新领域的零样本泛化。这一挑战促使我们思考：近期生成式扩散模型中所蕴含的丰富先验知识，是否能够用于提升深度估计的性能与泛化能力？为此，我们提出了Marigold——一种基于Stable Diffusion构建的仿射不变单目深度估计方法，该方法保留了原始模型中丰富的先验知识。该估计器仅需在单张GPU上使用合成数据进行数天的微调，即可实现卓越性能。在多个广泛的数据集上，Marigold均达到了当前最优水平，部分场景下性能提升超过20%。项目主页：https://marigoldmonodepth.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Bingxin Ke Anton Obukhov Shengyu Huang Nando Metzger Rodrigo Caye Daudt Konrad Schindler

摘要

单目深度估计是计算机视觉中的一项基础任务。从单张图像恢复三维深度在几何上属于病态问题，需要依赖对场景的深入理解，因此深度学习的兴起带来了该领域的突破性进展。近年来，单目深度估计模型的性能不断提升，其模型容量也从相对简单的卷积神经网络（CNN）发展到大规模的Transformer架构。然而，当面对训练数据中未见过的内容或布局时，现有方法往往表现不佳，这是因为其对视觉世界的认知受限于训练阶段所见数据，难以实现对新领域的零样本泛化。这一挑战促使我们思考：近期生成式扩散模型中所蕴含的丰富先验知识，是否能够用于提升深度估计的性能与泛化能力？为此，我们提出了Marigold——一种基于Stable Diffusion构建的仿射不变单目深度估计方法，该方法保留了原始模型中丰富的先验知识。该估计器仅需在单张GPU上使用合成数据进行数天的微调，即可实现卓越性能。在多个广泛的数据集上，Marigold均达到了当前最优水平，部分场景下性能提升超过20%。项目主页：https://marigoldmonodepth.github.io。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供