HyperAIHyperAI

Command Palette

Search for a command to run...

Garder les yeux sur la balle : l’attention par trajectoire dans les transformateurs vidéo

Mandela Patrick Dylan Campbell Yuki M. Asano Ishan Misra Florian Metze Christoph Feichtenhofer Andrea Vedaldi João F. Henriques

Résumé

Dans les transformateurs vidéo, la dimension temporelle est souvent traitée de la même manière que les deux dimensions spatiales. Toutefois, dans une scène où les objets ou la caméra peuvent bouger, un point physique image à une certaine position dans le cadre ttt peut être entièrement sans rapport avec ce qui est observé à cette même position dans le cadre t+kt+kt+k. Ces correspondances temporelles doivent être modélisées afin de faciliter l'apprentissage des scènes dynamiques. À cette fin, nous proposons un nouveau bloc plug-and-play pour les transformateurs vidéo — l’attention par trajectoire — qui agrège les informations le long de chemins de mouvement implicitement déterminés. Nous proposons également une nouvelle méthode pour atténuer la dépendance quadratique de la complexité computationnelle et de la mémoire par rapport à la taille d’entrée, ce qui est particulièrement crucial pour les vidéos à haute résolution ou de longue durée. Bien que ces idées s’avèrent utiles dans divers contextes, nous les appliquons à la tâche spécifique de reconnaissance d’actions vidéo à l’aide d’un modèle de transformateur, obtenant ainsi des résultats de pointe sur les jeux de données Kinetics, Something–Something V2 et Epic-Kitchens. Le code et les modèles sont disponibles à l’adresse : https://github.com/facebookresearch/Motionformer


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp