2 个月前
超越视场范围:利用片段循环变压器增强场景可见性和感知
Hao Shi; Qi Jiang; Kailun Yang; Xiaoting Yin; Ze Wang; Kaiwei Wang

摘要
视觉传感器在车辆、机器人和路边基础设施中得到了广泛应用。然而,由于硬件成本和系统尺寸的限制,相机视场(Field-of-View, FoV)通常受到限制,可能无法提供足够的覆盖范围。然而,从时空角度来看,可以通过过去的视频流获取超出相机物理视场的信息。本文提出了一种用于自动驾驶车辆的在线视频修复方法,以扩展视场,从而增强场景可见性、感知能力和系统安全性。为此,我们引入了FlowLens架构,该架构显式地利用光流,并隐式地结合了一种新颖的片段递归变换器进行特征传播。FlowLens具有两个关键特性:1) FlowLens包含一个新设计的片段递归中心(Clip-Recurrent Hub),该中心采用三维解耦交叉注意力机制(3D-Decoupled Cross Attention, DDCA),逐步处理随时间积累的全局信息;2) 它集成了多分支混合融合前馈网络(Mix Fusion Feed Forward Network, MixF3N),以增强局部特征的精确空间流动。为了便于训练和评估,我们从KITTI360数据集中派生出多种视场掩模(FoV mask),涵盖了外视场扩展和内视场扩展两种场景。我们还对不同模型进行了超越视场语义和超越视场目标检测的定量评估和定性比较。结果表明,使用FlowLens重建未见场景不仅能够提供可靠的语义上下文,还能增强视场内的感知能力。大量的实验和用户研究涉及离线和在线视频修复以及超越视场感知任务,证明了FlowLens在这些任务中达到了最先进的性能。源代码和数据集已公开发布于https://github.com/MasterHow/FlowLens。