HyperAIHyperAI
il y a 2 mois

Tarsier : Recettes pour l'entraînement et l'évaluation de grands modèles de description vidéo

Jiawei Wang; Liping Yuan; Yuchen Zhang; Haomiao Sun
Tarsier : Recettes pour l'entraînement et l'évaluation de grands modèles de description vidéo
Résumé

La génération de descriptions vidéo détaillées est un défi fondamental dans la compréhension des vidéos. Dans cette étude, nous présentons Tarsier, une famille de grands modèles vidéo-langage conçus pour générer des descriptions vidéo de haute qualité. Tarsier utilise CLIP-ViT pour encoder les images séparément, puis un modèle linguistique à grande échelle (LLM) pour modéliser les relations temporelles. Malgré son architecture simple, nous montrons que grâce à une procédure d'entraînement en deux étapes soigneusement conçue, les modèles Tarsier présentent des capacités de description vidéo nettement supérieures à celles de tout modèle open source existant, avec un avantage de +51,4 % lors d'évaluations comparatives réalisées par des humains face à face sur le modèle le plus performant. De plus, ils sont comparables aux modèles propriétaires de pointe, avec un avantage de +12,3 % contre GPT-4V et un désavantage de -6,7 % contre Gemini 1.5 Pro. Lorsqu'il est mis à niveau vers Tarsier2 en s'appuyant sur SigLIP et Qwen2-7B, il améliore encore considérablement ses performances, avec un avantage de +4,8 % contre GPT-4o. Outre la description des vidéos, Tarsier se révèle être un modèle généraliste polyvalent, atteignant de nouveaux résultats d'état de l'art sur neuf benchmarks publics, notamment en questions-réponses visuelles à choix multiples (multi-choice VQA), en questions-réponses visuelles ouvertes (open-ended VQA) et en légendage vidéo sans apprentissage supervisé (zero-shot video captioning). Notre deuxième contribution est l'introduction d'un nouveau benchmark -- DREAM-1K (https://tarsier-vlm.github.io/) pour évaluer les modèles de description vidéo. Ce benchmark comprend un nouveau jeu de données complexe comprenant des vidéos provenant de sources diverses et variées en termes de complexité, ainsi qu'une méthode automatique spécifiquement conçue pour évaluer la qualité des descriptions vidéo détaillées. Nous mettons nos modèles et notre benchmark d'évaluation librement disponibles au public sur https://github.com/bytedance/tarsier.

Tarsier : Recettes pour l'entraînement et l'évaluation de grands modèles de description vidéo | Articles de recherche récents | HyperAI