Command Palette
Search for a command to run...
Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration
Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration
Résumé
Les grands modèles de vision-langue (LVLMs) ont obtenu des résultats impressionnants dans les tâches de réponse à des questions visuelles et de raisonnement grâce à l'ajustement des instructions visuelles sur des ensembles de données spécifiques. Cependant, il reste un important potentiel d'amélioration pour aligner les modalités visuelle et linguistique. Les méthodes existantes dépendent souvent de modèles ou de données externes, ce qui entraîne des résultats d'alignement non contrôlés et instables. Dans cet article, nous proposons SIMA, un cadre d'amélioration autonome qui renforce l'alignement des modalités visuelle et linguistique sans dépendre d'éléments externes. SIMA utilise les ensembles de données existants pour l'ajustement des instructions visuelles afin de générer automatiquement des réponses, intégrant un mécanisme d'autocritique contextuelle qui construit des paires de préférence pour l'ajustement. De manière cruciale, notre approche permet aux LVLMs d'agir comme critiques en concevant des prompts efficaces pour la critique, éliminant ainsi le besoin d'un ajustement supplémentaire avec des données d'instruction externes. Nous introduisons trois nouvelles métriques visuelles au sein du processus d'autocritique pour guider le jugement, améliorant considérablement la précision de l'autocritique. À travers une série d'expériences étendues sur 14 benchmarks hallucinatoires et exhaustifs, nous montrons que SIMA améliore significativement les performances des LVLMs et surpasse les approches précédentes, atteignant une meilleure alignement modalité.Note: - "Hallucination" est conservé tel quel car c'est un terme technique couramment utilisé en français dans le domaine de l'intelligence artificielle.- "Comprehensive benchmarks" est traduit par "benchmarks exhaustifs" pour conserver le sens de couverture complète.- "Modality alignment" est traduit par "alignement modalité" pour rester proche du terme technique original.