
摘要
从单张图像中实现无深度信息的三维物体精确定位是一项极具挑战性的任务。现有大多数方法对所有物体采用统一的处理策略,忽视了物体在空间分布上的多样性,导致对被截断物体的检测性能受限。本文提出一种灵活的单目三维物体检测框架,能够显式地将被截断物体与其他物体解耦,并自适应地融合多种深度估计方法。具体而言,我们对特征图的边缘部分进行解耦处理,以专门预测长尾分布的截断物体,从而避免对正常物体优化过程的干扰。此外,我们将物体深度估计建模为一种基于不确定性的集成方法,综合直接回归的物体深度与不同关键点组求解得到的深度结果。实验表明,在KITTI基准测试集上,本方法在中等难度场景下相比当前最优方法性能提升27%,在困难场景下提升达30%,同时保持了实时推理效率。代码将开源,地址为:\url{https://github.com/zhangyp15/MonoFlex}。