7 个月前

计算机视觉

Xiaozhi Chen Huimin Ma Ji Wan Bo Li Tian Xia

摘要

本文旨在实现自动驾驶场景中的高精度三维目标检测。我们提出了一种多视图三维网络（Multi-View 3D networks, MV3D）框架，该框架同时以激光雷达点云和RGB图像作为输入，并预测带有方向的三维边界框。我们将稀疏的三维点云编码为紧凑的多视图表示形式。网络由两个子网络组成：一个用于生成三维目标建议框，另一个用于多视图特征融合。建议框生成网络从激光雷达点云的鸟瞰视角表示中高效地生成三维候选框。我们设计了一种深度融合方案，将多个视图中的区域特征进行结合，并在不同路径的中间层之间实现交互。在具有挑战性的KITTI基准测试上的实验结果表明，我们的方法在三维定位和三维检测任务上分别比现有最佳方法高出约25%和30%的平均精度（Average Precision, AP）。此外，在二维检测任务中，我们的方法在基于激光雷达的方法中对困难数据集获得了比现有最佳方法高10.3%的平均精度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Xiaozhi Chen Huimin Ma Ji Wan Bo Li Tian Xia

摘要

本文旨在实现自动驾驶场景中的高精度三维目标检测。我们提出了一种多视图三维网络（Multi-View 3D networks, MV3D）框架，该框架同时以激光雷达点云和RGB图像作为输入，并预测带有方向的三维边界框。我们将稀疏的三维点云编码为紧凑的多视图表示形式。网络由两个子网络组成：一个用于生成三维目标建议框，另一个用于多视图特征融合。建议框生成网络从激光雷达点云的鸟瞰视角表示中高效地生成三维候选框。我们设计了一种深度融合方案，将多个视图中的区域特征进行结合，并在不同路径的中间层之间实现交互。在具有挑战性的KITTI基准测试上的实验结果表明，我们的方法在三维定位和三维检测任务上分别比现有最佳方法高出约25%和30%的平均精度（Average Precision, AP）。此外，在二维检测任务中，我们的方法在基于激光雷达的方法中对困难数据集获得了比现有最佳方法高10.3%的平均精度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供