HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration

Résumé

Les grands modèles de vision-langue (LVLMs) ont obtenu des résultats impressionnants dans les tâches de réponse à des questions visuelles et de raisonnement grâce à l'ajustement des instructions visuelles sur des ensembles de données spécifiques. Cependant, il reste un important potentiel d'amélioration pour aligner les modalités visuelle et linguistique. Les méthodes existantes dépendent souvent de modèles ou de données externes, ce qui entraîne des résultats d'alignement non contrôlés et instables. Dans cet article, nous proposons SIMA, un cadre d'amélioration autonome qui renforce l'alignement des modalités visuelle et linguistique sans dépendre d'éléments externes. SIMA utilise les ensembles de données existants pour l'ajustement des instructions visuelles afin de générer automatiquement des réponses, intégrant un mécanisme d'autocritique contextuelle qui construit des paires de préférence pour l'ajustement. De manière cruciale, notre approche permet aux LVLMs d'agir comme critiques en concevant des prompts efficaces pour la critique, éliminant ainsi le besoin d'un ajustement supplémentaire avec des données d'instruction externes. Nous introduisons trois nouvelles métriques visuelles au sein du processus d'autocritique pour guider le jugement, améliorant considérablement la précision de l'autocritique. À travers une série d'expériences étendues sur 14 benchmarks hallucinatoires et exhaustifs, nous montrons que SIMA améliore significativement les performances des LVLMs et surpasse les approches précédentes, atteignant une meilleure alignement modalité.Note: - "Hallucination" est conservé tel quel car c'est un terme technique couramment utilisé en français dans le domaine de l'intelligence artificielle.- "Comprehensive benchmarks" est traduit par "benchmarks exhaustifs" pour conserver le sens de couverture complète.- "Modality alignment" est traduit par "alignement modalité" pour rester proche du terme technique original.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration | Articles | HyperAI