HyperAIHyperAI
il y a 2 mois

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos

Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos
Résumé

Nous présentons Tarsier2, un modèle de vision-langue de grande envergure (LVLM) d'avant-garde conçu pour générer des descriptions vidéo détaillées et précises, tout en montrant une capacité supérieure à la compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois améliorations clés : (1) L'augmentation des données pré-entraînées de 11 millions à 40 millions de paires vidéo-texte, enrichissant ainsi le volume et la diversité ; (2) La réalisation d'un alignement temporel fin lors du réglage supervisé ; (3) L'utilisation d'un échantillonnage basé sur un modèle pour construire automatiquement des données de préférence et l'application de la formation DPO pour l'optimisation. De nombreuses expériences montrent que Tarsier2-7B surpasse constamment les modèles propriétaires de pointe, tels que GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le F1 de 2,8 % par rapport à GPT-4o et de 5,8 % par rapport à Gemini-1.5-Pro. Dans les évaluations comparatives réalisées par des humains, Tarsier2-7B montre un avantage de performance de +8,6 % par rapport à GPT-4o et +24,9 % par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats d'état de l'art sur 15 benchmarks publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant ainsi sa polyvalence en tant que modèle robuste généraliste de vision-langue.

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos | Articles de recherche récents | HyperAI