8 个月前

机器视觉 3D

多任务学习

计算机视觉

Xinzhu Ma Yinmin Zhang Dan Xu Dongzhan Zhou Shuai Yi Haojie Li Wanli Ouyang

摘要

从单目图像中估计三维边界框是自动驾驶中的一个关键组成部分，而从这类数据中实现准确的三维目标检测非常具有挑战性。在本研究中，通过大量的诊断实验，我们量化了每个子任务引入的影响，并发现“定位误差”是限制单目三维检测性能的关键因素。此外，我们还探讨了定位误差背后的根本原因，分析了它们可能带来的问题，并提出了三种策略。首先，我们重新审视了二维边界框中心与三维物体投影中心之间的错位问题，这是导致低定位精度的重要因素。其次，我们观察到使用现有技术几乎无法准确地对远处的目标进行定位，而这些样本会误导训练网络。为此，我们建议从训练集中移除这些样本以提高检测器的整体性能。最后，我们提出了一种新的基于三维交并比（3D IoU）的损失函数来估计目标的尺寸，该方法不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验，结果表明所提出的算法能够实现实时检测，并且显著优于之前的方法。代码将在以下地址公开：https://github.com/xinzhuma/monodle。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

多任务学习

计算机视觉

Xinzhu Ma Yinmin Zhang Dan Xu Dongzhan Zhou Shuai Yi Haojie Li Wanli Ouyang

摘要

从单目图像中估计三维边界框是自动驾驶中的一个关键组成部分，而从这类数据中实现准确的三维目标检测非常具有挑战性。在本研究中，通过大量的诊断实验，我们量化了每个子任务引入的影响，并发现“定位误差”是限制单目三维检测性能的关键因素。此外，我们还探讨了定位误差背后的根本原因，分析了它们可能带来的问题，并提出了三种策略。首先，我们重新审视了二维边界框中心与三维物体投影中心之间的错位问题，这是导致低定位精度的重要因素。其次，我们观察到使用现有技术几乎无法准确地对远处的目标进行定位，而这些样本会误导训练网络。为此，我们建议从训练集中移除这些样本以提高检测器的整体性能。最后，我们提出了一种新的基于三维交并比（3D IoU）的损失函数来估计目标的尺寸，该方法不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验，结果表明所提出的算法能够实现实时检测，并且显著优于之前的方法。代码将在以下地址公开：https://github.com/xinzhuma/monodle。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供