6 个月前

卷积神经网络

计算机视觉

Gabriel J. Brostow Michael Firman Oisin Mac Aodha Clement Godard

摘要

逐像素的真值深度数据在大规模获取方面极具挑战性。为克服这一局限，自监督学习已成为训练模型实现单目深度估计的一种极具前景的替代方案。本文提出了一系列改进措施，综合应用后在定量与定性两个方面均显著优于现有的自监督方法。当前关于自监督单目训练的研究通常聚焦于构建日益复杂的网络架构、损失函数以及图像形成模型，这些进展近来已显著缩小了与全监督方法之间的差距。然而，我们发现一个出人意料的简单模型及其相关设计选择，反而能够带来更优的预测效果。具体而言，本文提出：（i）一种最小重投影损失（minimum reprojection loss），旨在鲁棒地处理遮挡问题；（ii）一种全分辨率多尺度采样方法，有效减少视觉伪影；（iii）一种自动遮蔽损失（auto-masking loss），用于忽略违反相机运动假设的训练像素。我们分别验证了各组件的独立有效性，并在KITTI基准测试上取得了高质量、处于当前最先进水平的实验结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Gabriel J. Brostow Michael Firman Oisin Mac Aodha Clement Godard

摘要

逐像素的真值深度数据在大规模获取方面极具挑战性。为克服这一局限，自监督学习已成为训练模型实现单目深度估计的一种极具前景的替代方案。本文提出了一系列改进措施，综合应用后在定量与定性两个方面均显著优于现有的自监督方法。当前关于自监督单目训练的研究通常聚焦于构建日益复杂的网络架构、损失函数以及图像形成模型，这些进展近来已显著缩小了与全监督方法之间的差距。然而，我们发现一个出人意料的简单模型及其相关设计选择，反而能够带来更优的预测效果。具体而言，本文提出：（i）一种最小重投影损失（minimum reprojection loss），旨在鲁棒地处理遮挡问题；（ii）一种全分辨率多尺度采样方法，有效减少视觉伪影；（iii）一种自动遮蔽损失（auto-masking loss），用于忽略违反相机运动假设的训练像素。我们分别验证了各组件的独立有效性，并在KITTI基准测试上取得了高质量、处于当前最先进水平的实验结果。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供