16 天前

VisEvent:基于帧流与事件流协同的可靠目标跟踪

Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu
VisEvent:基于帧流与事件流协同的可靠目标跟踪
摘要

与逐帧记录强度图像的可见光相机不同,受生物启发的事件相机能够以异步且稀疏的方式生成事件流,具有显著更低的延迟。在实际应用中,可见光相机在纹理细节感知和慢速运动捕捉方面表现更优,而事件相机则能有效避免运动模糊,并具备更大的动态范围,因而能够在高速运动和低光照条件下稳定工作。因此,两类传感器可协同配合,实现更可靠的物体跟踪。针对当前该任务缺乏真实且大规模数据集的问题,本文提出一个大规模可见光-事件联合基准(命名为VisEvent)。该数据集包含820对视频,覆盖低光照、高速运动及复杂背景干扰等挑战性场景,划分为训练集(500段视频)和测试集(320段视频)。基于VisEvent数据集,我们将事件流转换为事件图像,并通过将现有单模态跟踪器扩展为双模态版本,构建了30余种基线方法。更重要的是,本文提出一种跨模态Transformer架构,设计了一种简洁而高效的跟踪算法,实现了可见光与事件数据之间的有效特征融合。在所提出的VisEvent数据集、FE108、COESOT以及两个仿真数据集(即OTB-DVS和VOT-DVS)上的大量实验验证了所提模型的有效性。相关数据集与源代码已公开发布于:\url{https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark}。