11 天前

基于跨模态正交高秩增强的RGB-事件Transformer跟踪器

Zhiyu Zhu, Junhui Hou, Dapeng Oliver Wu
基于跨模态正交高秩增强的RGB-事件Transformer跟踪器
摘要

本文针对从RGB视频与事件数据中进行跨模态目标跟踪的问题展开研究。不同于构建复杂的跨模态融合网络,本文深入探索了预训练视觉Transformer(Vision Transformer, ViT)所蕴含的巨大潜力。具体而言,我们精心设计了一种即插即用的训练增强方法,旨在促使ViT有效弥合两种模态间巨大的分布差异,从而实现全面的跨模态信息交互,显著提升模型性能。为此,我们提出一种掩码建模策略:随机对部分token所属的特定模态进行掩码,强制不同模态间的token主动交互。为进一步缓解该掩码策略引发的网络震荡问题,并进一步强化其正向效果,我们从理论上提出了正交高秩损失(orthogonal high-rank loss),用于对注意力矩阵进行正则化。大量实验表明,所提出的即插即用训练增强技术能够显著提升当前主流的一流单流与双流跟踪器在跟踪精度与成功率方面的性能。本研究提出的新视角与发现,有望为利用强大预训练ViT建模跨模态数据这一领域提供重要启示。相关代码将公开发布。

基于跨模态正交高秩增强的RGB-事件Transformer跟踪器 | 最新论文 | HyperAI超神经