HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers à plusieurs vues pour la reconnaissance vidéo

Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid

Résumé

L’interprétation vidéo nécessite des raisonnements à plusieurs résolutions spatio-temporelles — allant des mouvements fins et courts aux événements se déroulant sur des durées plus longues. Bien que les architectures de transformateurs aient récemment permis d’atteindre l’état de l’art, elles n’ont pas explicitement modélisé différentes résolutions spatio-temporelles. À cet effet, nous proposons les Multiview Transformers for Video Recognition (MTV). Notre modèle repose sur des encodeurs séparés permettant de représenter différentes perspectives de la vidéo d’entrée, reliés entre eux par des connexions latérales afin de fusionner l’information entre ces perspectives. Nous présentons des études d’ablation approfondies de notre modèle, montrant que MTV obtient systématiquement de meilleurs résultats que ses homologues à vue unique en termes de précision et de coût computationnel, sur une large gamme de tailles de modèles. En outre, nous atteignons des résultats de pointe sur six jeux de données standards, et améliorons encore davantage grâce à un préentraînement à grande échelle. Le code et les points de contrôle sont disponibles à l’adresse suivante : https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp