il y a 6 mois

Résumé

Ce papier aborde le problème du suivi d’objets multimodal à partir de vidéos RGB et de données événementielles. Au lieu de concevoir un réseau de fusion multimodal complexe, nous explorons le grand potentiel d’un vision Transformer (ViT) pré-entraîné. Plus précisément, nous étudions de manière fine des techniques d’augmentation d’apprentissage plug-and-play visant à inciter le ViT à combler l’écart de distribution important entre les deux modalités, permettant ainsi une interaction complète entre les informations multimodales et renforçant ainsi sa capacité. Plus spécifiquement, nous proposons une stratégie de masquage qui consiste à masquer aléatoirement une modalité spécifique de certains tokens, afin d’encourager une interaction proactive entre les tokens provenant de modalités différentes. Pour atténuer les oscillations du réseau dues à cette stratégie de masquage et amplifier davantage son effet positif, nous proposons théoriquement une perte orthogonale à rang élevé afin de régulariser la matrice d’attention. Des expériences étendues démontrent que nos techniques d’augmentation d’apprentissage plug-and-play permettent d’améliorer de manière significative les trackers de type one-stream et two-stream de pointe, tant en précision de suivi qu’en taux de réussite. Notre nouvelle perspective et nos résultats offrent potentiellement des pistes importantes pour l’exploitation de ViTs pré-entraînés puissants afin de modéliser des données multimodales. Le code source sera rendu publiquement disponible.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Suivi D'objets

Transformer

Représentation Multimodale

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Suivi D'objets

Transformer

Représentation Multimodale

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers | Articles | HyperAI

Command Palette

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Augmentation haute-rang orthogonale à travers les modalités pour les traqueurs RGB-Event basés sur les Transformers

Zhiyu Zhu Junhui Hou Dapeng Oliver Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters