Vamos : Modèles d'Actions Polyvalents pour la Compréhension Vidéo

Quelles sont les bonnes représentations pour la compréhension vidéo, telles que l'anticipation des activités futures ou la réponse à des questions conditionnées par la vidéo ? Bien que les approches antérieures se concentrent sur l'apprentissage de bout en bout directement à partir des pixels de la vidéo, nous proposons de réexaminer les représentations basées sur le texte, comme les légendes vidéo polyvalentes, qui sont interprétables et peuvent être directement consommées par de grands modèles linguistiques (LLMs). Intuitivement, différentes tâches de compréhension vidéo peuvent nécessiter des représentations complémentaires et à différents niveaux de granularité. À cette fin, nous proposons Vamos (Versatile Action Models), un cadre d'apprentissage alimenté par un grand modèle linguistique en tant que « raisonneur », et qui peut utiliser de manière flexible des plongements visuels et des descriptions textuelles libres comme entrée. Pour interpréter les preuves textuelles importantes pour la réponse aux questions, nous généralisons le concept du modèle bottleneck à travailler avec des jetons et des modèles non linéaires, ce qui utilise une attention dure pour sélectionner un petit sous-ensemble de jetons du texte libre comme entrée pour le raisonneur LLM. Nous évaluons Vamos sur cinq benchmarks complémentaires : Ego4D, NeXT-QA, IntentQA, Spacewalk-18 et EgoSchema, en termes de capacité à modéliser la dynamique temporelle, coder l'historique visuel et effectuer des raisonnements. De manière surprenante, nous observons que les représentations basées sur le texte atteignent constamment une performance compétitive sur tous les benchmarks, et que les plongements visuels apportent une amélioration marginale ou nulle de la performance, démontrant ainsi l'efficacité des représentations vidéo basées sur le texte dans l'ère des LLMs. Nous montrons également que notre modèle bottleneck de jetons est capable de sélectionner des preuves pertinentes dans le texte libre, de soutenir l'intervention au moment du test et d'atteindre près de 5 fois d'accélération lors de l'inférence tout en maintenant une performance compétitive en réponse aux questions. Le code et les modèles sont publiquement disponibles à l'adresse suivante : https://brown-palm.github.io/Vamos/