HyperAIHyperAI

Command Palette

Search for a command to run...

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

Ce papier aborde le problème du suivi d’objets multimodal à partir de vidéos RGB et de données événementielles. Au lieu de concevoir un réseau de fusion multimodal complexe, nous explorons le grand potentiel d’un vision Transformer (ViT) pré-entraîné. Plus précisément, nous étudions de manière fine des techniques d’augmentation d’apprentissage plug-and-play visant à inciter le ViT à combler l’écart de distribution important entre les deux modalités, permettant ainsi une interaction complète entre les informations multimodales et renforçant ainsi sa capacité. Plus spécifiquement, nous proposons une stratégie de masquage qui consiste à masquer aléatoirement une modalité spécifique de certains tokens, afin d’encourager une interaction proactive entre les tokens provenant de modalités différentes. Pour atténuer les oscillations du réseau dues à cette stratégie de masquage et amplifier davantage son effet positif, nous proposons théoriquement une perte orthogonale à rang élevé afin de régulariser la matrice d’attention. Des expériences étendues démontrent que nos techniques d’augmentation d’apprentissage plug-and-play permettent d’améliorer de manière significative les trackers de type one-stream et two-stream de pointe, tant en précision de suivi qu’en taux de réussite. Notre nouvelle perspective et nos résultats offrent potentiellement des pistes importantes pour l’exploitation de ViTs pré-entraînés puissants afin de modéliser des données multimodales. Le code source sera rendu publiquement disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp