6 个月前

多模态表征

计算机视觉

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

摘要

本文针对从RGB视频与事件数据中进行跨模态目标跟踪的问题展开研究。不同于构建复杂的跨模态融合网络，本文深入探索了预训练视觉Transformer（Vision Transformer, ViT）所蕴含的巨大潜力。具体而言，我们精心设计了一种即插即用的训练增强方法，旨在促使ViT有效弥合两种模态间巨大的分布差异，从而实现全面的跨模态信息交互，显著提升模型性能。为此，我们提出一种掩码建模策略：随机对部分token所属的特定模态进行掩码，强制不同模态间的token主动交互。为进一步缓解该掩码策略引发的网络震荡问题，并进一步强化其正向效果，我们从理论上提出了正交高秩损失（orthogonal high-rank loss），用于对注意力矩阵进行正则化。大量实验表明，所提出的即插即用训练增强技术能够显著提升当前主流的一流单流与双流跟踪器在跟踪精度与成功率方面的性能。本研究提出的新视角与发现，有望为利用强大预训练ViT建模跨模态数据这一领域提供重要启示。相关代码将公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

摘要

本文针对从RGB视频与事件数据中进行跨模态目标跟踪的问题展开研究。不同于构建复杂的跨模态融合网络，本文深入探索了预训练视觉Transformer（Vision Transformer, ViT）所蕴含的巨大潜力。具体而言，我们精心设计了一种即插即用的训练增强方法，旨在促使ViT有效弥合两种模态间巨大的分布差异，从而实现全面的跨模态信息交互，显著提升模型性能。为此，我们提出一种掩码建模策略：随机对部分token所属的特定模态进行掩码，强制不同模态间的token主动交互。为进一步缓解该掩码策略引发的网络震荡问题，并进一步强化其正向效果，我们从理论上提出了正交高秩损失（orthogonal high-rank loss），用于对注意力矩阵进行正则化。大量实验表明，所提出的即插即用训练增强技术能够显著提升当前主流的一流单流与双流跟踪器在跟踪精度与成功率方面的性能。本研究提出的新视角与发现，有望为利用强大预训练ViT建模跨模态数据这一领域提供重要启示。相关代码将公开发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供