HyperAIHyperAI

Command Palette

Search for a command to run...

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

Nous présentons Tarsier2, un modèle de vision-langue de grande envergure (LVLM) d'avant-garde conçu pour générer des descriptions vidéo détaillées et précises, tout en montrant une capacité supérieure à la compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois améliorations clés : (1) L'augmentation des données pré-entraînées de 11 millions à 40 millions de paires vidéo-texte, enrichissant ainsi le volume et la diversité ; (2) La réalisation d'un alignement temporel fin lors du réglage supervisé ; (3) L'utilisation d'un échantillonnage basé sur un modèle pour construire automatiquement des données de préférence et l'application de la formation DPO pour l'optimisation. De nombreuses expériences montrent que Tarsier2-7B surpasse constamment les modèles propriétaires de pointe, tels que GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le F1 de 2,8 % par rapport à GPT-4o et de 5,8 % par rapport à Gemini-1.5-Pro. Dans les évaluations comparatives réalisées par des humains, Tarsier2-7B montre un avantage de performance de +8,6 % par rapport à GPT-4o et +24,9 % par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats d'état de l'art sur 15 benchmarks publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant ainsi sa polyvalence en tant que modèle robuste généraliste de vision-langue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp