il y a 8 mois

Résumé

Nous présentons Tarsier2, un modèle de vision-langue de grande envergure (LVLM) d'avant-garde conçu pour générer des descriptions vidéo détaillées et précises, tout en montrant une capacité supérieure à la compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois améliorations clés : (1) L'augmentation des données pré-entraînées de 11 millions à 40 millions de paires vidéo-texte, enrichissant ainsi le volume et la diversité ; (2) La réalisation d'un alignement temporel fin lors du réglage supervisé ; (3) L'utilisation d'un échantillonnage basé sur un modèle pour construire automatiquement des données de préférence et l'application de la formation DPO pour l'optimisation. De nombreuses expériences montrent que Tarsier2-7B surpasse constamment les modèles propriétaires de pointe, tels que GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le F1 de 2,8 % par rapport à GPT-4o et de 5,8 % par rapport à Gemini-1.5-Pro. Dans les évaluations comparatives réalisées par des humains, Tarsier2-7B montre un avantage de performance de +8,6 % par rapport à GPT-4o et +24,9 % par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats d'état de l'art sur 15 benchmarks publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant ainsi sa polyvalence en tant que modèle robuste généraliste de vision-langue.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Video Captioning

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Video Captioning

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Tarsier2 : Avancer les grands modèles vision-langue de la description détaillée des vidéos à la compréhension complète des vidéos

Liping Yuan Jiawei Wang Haomiao Sun Yuchen Zhang Yuan Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters