HyperAIHyperAI

Command Palette

Search for a command to run...

Vamos : Modèles d'Actions Polyvalents pour la Compréhension Vidéo

Shijie Wang Qi Zhao Minh Quan Do Nakul Agarwal Kwonjoon Lee Chen Sun

Résumé

Quelles sont les bonnes représentations pour la compréhension vidéo, telles que l'anticipation des activités futures ou la réponse à des questions conditionnées par la vidéo ? Bien que les approches antérieures se concentrent sur l'apprentissage de bout en bout directement à partir des pixels de la vidéo, nous proposons de réexaminer les représentations basées sur le texte, comme les légendes vidéo polyvalentes, qui sont interprétables et peuvent être directement consommées par de grands modèles linguistiques (LLMs). Intuitivement, différentes tâches de compréhension vidéo peuvent nécessiter des représentations complémentaires et à différents niveaux de granularité. À cette fin, nous proposons Vamos (Versatile Action Models), un cadre d'apprentissage alimenté par un grand modèle linguistique en tant que « raisonneur », et qui peut utiliser de manière flexible des plongements visuels et des descriptions textuelles libres comme entrée. Pour interpréter les preuves textuelles importantes pour la réponse aux questions, nous généralisons le concept du modèle bottleneck à travailler avec des jetons et des modèles non linéaires, ce qui utilise une attention dure pour sélectionner un petit sous-ensemble de jetons du texte libre comme entrée pour le raisonneur LLM. Nous évaluons Vamos sur cinq benchmarks complémentaires : Ego4D, NeXT-QA, IntentQA, Spacewalk-18 et EgoSchema, en termes de capacité à modéliser la dynamique temporelle, coder l'historique visuel et effectuer des raisonnements. De manière surprenante, nous observons que les représentations basées sur le texte atteignent constamment une performance compétitive sur tous les benchmarks, et que les plongements visuels apportent une amélioration marginale ou nulle de la performance, démontrant ainsi l'efficacité des représentations vidéo basées sur le texte dans l'ère des LLMs. Nous montrons également que notre modèle bottleneck de jetons est capable de sélectionner des preuves pertinentes dans le texte libre, de soutenir l'intervention au moment du test et d'atteindre près de 5 fois d'accélération lors de l'inférence tout en maintenant une performance compétitive en réponse aux questions. Le code et les modèles sont publiquement disponibles à l'adresse suivante : https://brown-palm.github.io/Vamos/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp