HyperAIHyperAI

Command Palette

Search for a command to run...

BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计

Yinhao Li Han Bao Zheng Ge Jinrong Yang Jianjian Sun Zeming Li

摘要

由于深度感知固有的模糊性,当前基于摄像头的三维目标检测方法已陷入性能瓶颈。直观上,利用时序多视角立体视觉(Temporal Multi-View Stereo, MVS)技术是解决该模糊性问题的自然途径。然而,传统MVS方法在应用于三维目标检测场景时存在两个明显缺陷:其一,所有视图之间的相似性度量计算开销巨大;其二,难以应对室外场景中物体频繁移动的复杂情况。为此,我们提出一种高效的时序立体匹配方法,能够动态选择匹配候选区域的尺度,显著降低计算开销。更进一步,我们设计了一种迭代算法,用于持续更新更具价值的候选区域,从而实现对运动目标的自适应匹配。我们将所提方法应用于多视角三维检测框架,构建了名为BEVStereo的检测器。在nuScenes数据集的纯摄像头评测赛道上,BEVStereo取得了新的最先进性能,达到52.5%的mAP和61.0%的NDS。大量实验表明,与现有MVS方法相比,本方法在复杂室外场景下的适应能力显著更优。相关代码已开源,地址为:https://github.com/Megvii-BaseDetection/BEVStereo


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供