HyperAIHyperAI
il y a 16 jours

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers

Zhiyu Zhu, Junhui Hou, Dapeng Oliver Wu
Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers
Résumé

Ce papier aborde le problème du suivi d’objets multimodal à partir de vidéos RGB et de données événementielles. Au lieu de concevoir un réseau de fusion multimodal complexe, nous explorons le grand potentiel d’un vision Transformer (ViT) pré-entraîné. Plus précisément, nous étudions de manière fine des techniques d’augmentation d’apprentissage plug-and-play visant à inciter le ViT à combler l’écart de distribution important entre les deux modalités, permettant ainsi une interaction complète entre les informations multimodales et renforçant ainsi sa capacité. Plus spécifiquement, nous proposons une stratégie de masquage qui consiste à masquer aléatoirement une modalité spécifique de certains tokens, afin d’encourager une interaction proactive entre les tokens provenant de modalités différentes. Pour atténuer les oscillations du réseau dues à cette stratégie de masquage et amplifier davantage son effet positif, nous proposons théoriquement une perte orthogonale à rang élevé afin de régulariser la matrice d’attention. Des expériences étendues démontrent que nos techniques d’augmentation d’apprentissage plug-and-play permettent d’améliorer de manière significative les trackers de type one-stream et two-stream de pointe, tant en précision de suivi qu’en taux de réussite. Notre nouvelle perspective et nos résultats offrent potentiellement des pistes importantes pour l’exploitation de ViTs pré-entraînés puissants afin de modéliser des données multimodales. Le code source sera rendu publiquement disponible.

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers | Articles de recherche récents | HyperAI