11 天前
GLENet:通过生成式标签不确定性估计提升3D目标检测器性能
Yifan Zhang, Qijian Zhang, Zhiyu Zhu, Junhui Hou, Yixuan Yuan

摘要
三维边界框的真值标注 inherently 存在模糊性,这主要由遮挡、信号缺失或人工标注误差等因素引起。这种模糊性在深度三维目标检测器的训练过程中容易造成混淆,从而降低检测精度。然而,现有方法在一定程度上忽视了这一问题,通常将标签视为确定性信息。本文将标签不确定性建模为物体潜在合理边界框之间的多样性,并提出 GLENet——一种基于条件变分自编码器(conditional variational autoencoders)的生成式框架,利用潜在变量来建模典型三维物体与其潜在真值边界框之间的“一对多”关系。GLENet 所生成的标签不确定性可作为即插即用模块,方便地集成到现有的深度三维检测器中,构建概率化检测器,并用于监督定位不确定性的学习。此外,我们还设计了一种面向不确定性的质量评估器架构,用于在概率化检测器中引导 IoU 分支的训练,使其能够利用预测的定位不确定性进行更有效的优化。我们将所提方法应用于多种主流三维检测器,在 KITTI 与 Waymo 两个基准数据集上均取得了显著且一致的性能提升。特别地,所提出的 GLENet-VR 在挑战性极强的 KITTI 测试集上超越了所有已发表的基于 LiDAR 的方法,成为单模态方法中的最优方案,排名第一。项目源代码与预训练模型已公开发布于 \url{https://github.com/Eaphan/GLENet}。