6 个月前

摘要

与逐帧记录强度图像的可见光相机不同，受生物启发的事件相机能够以异步且稀疏的方式生成事件流，具有显著更低的延迟。在实际应用中，可见光相机在纹理细节感知和慢速运动捕捉方面表现更优，而事件相机则能有效避免运动模糊，并具备更大的动态范围，因而能够在高速运动和低光照条件下稳定工作。因此，两类传感器可协同配合，实现更可靠的物体跟踪。针对当前该任务缺乏真实且大规模数据集的问题，本文提出一个大规模可见光-事件联合基准（命名为VisEvent）。该数据集包含820对视频，覆盖低光照、高速运动及复杂背景干扰等挑战性场景，划分为训练集（500段视频）和测试集（320段视频）。基于VisEvent数据集，我们将事件流转换为事件图像，并通过将现有单模态跟踪器扩展为双模态版本，构建了30余种基线方法。更重要的是，本文提出一种跨模态Transformer架构，设计了一种简洁而高效的跟踪算法，实现了可见光与事件数据之间的有效特征融合。在所提出的VisEvent数据集、FE108、COESOT以及两个仿真数据集（即OTB-DVS和VOT-DVS）上的大量实验验证了所提模型的有效性。相关数据集与源代码已公开发布于：\url{https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark}。

源 PDF