8 个月前

卷积神经网络

计算机视觉

Shubham Shrivastava Punarjay Chakravarty

摘要

我们介绍了一种使用单目图像进行三维物体检测的方法。从合成数据集开始，我们预先训练了一个RGB到深度的自编码器（Auto-Encoder, AE）。通过该自编码器学习到的嵌入表示，随后用于训练一个三维物体检测器（3D Object Detector, 3DOD）卷积神经网络（CNN），该网络在自编码器生成RGB图像的潜在嵌入后，回归三维物体姿态的参数。我们展示了可以使用来自模拟数据的配对RGB和深度图像一次性预训练AE，之后仅使用真实数据（包括RGB图像和三维物体姿态标签，无需密集深度信息）来训练3DOD网络。我们的3DOD网络利用了围绕相机的三维空间的一种特定“立方体化”方法，每个立方体负责预测N个物体的姿态及其类别和置信度值。AE的预训练以及这种将相机周围的三维空间划分为立方体的方法赋予了我们的方法名称——CubifAE-3D。我们在自动驾驶汽车（Autonomous Vehicle, AV）应用场景中，使用Virtual KITTI 2和KITTI数据集展示了单目三维物体检测的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Shubham Shrivastava Punarjay Chakravarty

摘要

我们介绍了一种使用单目图像进行三维物体检测的方法。从合成数据集开始，我们预先训练了一个RGB到深度的自编码器（Auto-Encoder, AE）。通过该自编码器学习到的嵌入表示，随后用于训练一个三维物体检测器（3D Object Detector, 3DOD）卷积神经网络（CNN），该网络在自编码器生成RGB图像的潜在嵌入后，回归三维物体姿态的参数。我们展示了可以使用来自模拟数据的配对RGB和深度图像一次性预训练AE，之后仅使用真实数据（包括RGB图像和三维物体姿态标签，无需密集深度信息）来训练3DOD网络。我们的3DOD网络利用了围绕相机的三维空间的一种特定“立方体化”方法，每个立方体负责预测N个物体的姿态及其类别和置信度值。AE的预训练以及这种将相机周围的三维空间划分为立方体的方法赋予了我们的方法名称——CubifAE-3D。我们在自动驾驶汽车（Autonomous Vehicle, AV）应用场景中，使用Virtual KITTI 2和KITTI数据集展示了单目三维物体检测的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供