
摘要
自主导航需要对道路网络进行结构化表示,并实现对其他交通参与者实例级的识别。由于交通场景定义在地平面(ground plane)上,因此这对应于鸟瞰图(Bird's-Eye-View, BEV)下的场景理解任务。然而,自动驾驶汽车上的车载摄像头通常水平安装,以获得更佳的周围视野,这使得该任务极具挑战性。本文研究了如何从单张车载摄像头图像中提取表示局部道路网络的有向图,并将其映射至BEV坐标系。此外,我们还证明该方法可进一步扩展至在BEV平面上检测动态物体。所检测物体的语义信息、位置及朝向,连同道路图结构,共同构建了对场景的全面理解。这种理解为下游任务(如路径规划与导航)奠定了基础。我们在多个强大基线方法上验证了所提方法的有效性,结果表明,我们的网络在性能上表现更优。同时,通过消融实验,我们系统分析了不同设计选择对整体性能的影响。代码已开源:https://github.com/ybarancan/STSU