
摘要
我们提出了一种新型主干网络——循环视觉Transformer(Recurrent Vision Transformers, RVTs),用于事件相机(event camera)上的目标检测任务。事件相机能够在高动态范围下以亚毫秒级的延迟提供视觉信息,并对运动模糊具有极强的鲁棒性。这些独特特性为时间敏感场景中的低延迟目标检测与跟踪带来了巨大潜力。尽管此前基于事件视觉的研究已取得了优异的检测性能,但通常伴随着显著的推理延迟,普遍超过40毫秒。通过重新审视循环视觉主干网络的高层设计,我们在保持相近性能的前提下,将推理时间降低了6倍。为实现这一目标,我们采用了一种多阶段架构,并在每一阶段融合三个关键设计思想:第一,引入卷积先验(convolutional prior),可视为一种条件位置嵌入(conditional positional embedding);第二,结合局部与空洞化的全局自注意力机制,以增强空间特征交互能力;第三,采用循环的时间特征聚合策略,在最大限度降低延迟的同时有效保留时序信息。RVTs可从零开始进行端到端训练,在事件相机目标检测任务上达到了当前最优性能,在Gen1汽车数据集上实现了47.2%的平均精度(mAP)。与此同时,RVTs具备极快的推理速度(在T4 GPU上低于12毫秒),并展现出优异的参数效率(参数量仅为现有方法的五分之一)。本研究为事件视觉领域乃至更广泛领域的高效网络设计提供了新的洞见与可行路径。