
摘要
受传统帧基相机与生物启发式事件基相机之间互补性的启发,我们提出了一种基于多模态融合的方法,旨在整合帧域与事件域的视觉线索,以提升单目标跟踪在退化环境下的性能,尤其在高动态范围场景、低光照条件以及快速运动目标等挑战性情况下表现更优。所提出的方案能够有效且自适应地融合两个模态中的有意义信息。其有效性通过一种新颖设计的跨域注意力机制得以保障,该机制结合自域与跨域注意力机制,能够有效增强特征表示;而自适应性则由一种专门设计的加权策略实现,可动态平衡两个模态对最终结果的贡献权重。为充分挖掘事件域视觉线索在单目标跟踪中的潜力,我们构建了一个大规模的帧-事件联合数据集,并基于该数据集训练了一种新型的帧-事件融合跟踪模型。大量实验结果表明,所提方法在代表性成功率和精度率两项指标上,分别优于当前最先进的帧基跟踪方法至少10.4%和11.9%。此外,通过详尽的消融实验,充分验证了本方法中各个关键组件的有效性。