
摘要
伪LiDAR三维检测方法在单目三维检测任务中取得了显著进展,其通过引入深度估计网络增强深度感知能力,并采用基于LiDAR的三维检测架构,显著提升了检测性能。先进的立体视觉三维检测方法同样能够实现高精度的三维目标定位。相较于图像到LiDAR的生成差距,图像到立体视图的生成差距要小得多。受此启发,本文提出了一种新型的伪立体三维检测框架,包含三种创新的虚拟视图生成方法:图像级生成、特征级生成以及特征克隆(feature-clone),用于从单张图像中实现三维目标检测。我们对深度感知学习的分析表明,在所提出的框架中,深度损失仅在特征级虚拟视图生成中具有有效性,而估计的深度图则在图像级与特征级生成中均能发挥积极作用。为此,我们进一步提出了一种基于视差的动态卷积机制,其动态卷积核从视差特征图中采样,能够自适应地过滤单图像特征,以生成高质量的虚拟图像特征,从而有效缓解由深度估计误差引起的特征退化问题。截至2021年11月18日提交时,本研究所提出的伪立体三维检测框架在KITTI-3D基准测试中,于单目三维检测方法类别下,于汽车、行人和骑行人三类目标的检测任务中均位列第一,相关成果已发表于该基准的公开论文列表中。代码已开源,地址为:https://github.com/revisitq/Pseudo-Stereo-3D。