
摘要
我们提出了一种新的基于学习的框架,用于从单个RGB图像中恢复车辆在SO(3)中的姿态。与以往将局部外观映射到观测角度的方法不同,我们探索了一种渐进式方法,通过提取有意义的中间几何表示(IGRs)来估计以自我为中心的车辆方向。该方法的特点是一个深度模型,该模型将感知强度转换为IGRs,然后将其映射到一个3D表示中,该表示在相机坐标系中编码了物体的方向。核心问题在于选择哪些IGRs以及如何更有效地学习它们。对于前者,我们设计了基于插值立方体的IGRs,这些立方体可以从原始的3D注释中轻松获得。后者促使我们将几何知识与一种新的基于投影不变量的损失函数相结合。这种损失函数允许在训练阶段使用未标记的数据来改进表示学习。无需额外标签,我们的系统在KITTI基准上对联合车辆检测和姿态估计的表现超过了以往基于单目RGB图像的方法,甚至可与立体方法相媲美。代码和预训练模型可在以下https链接获取。