il y a 10 mois

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Résumé

Les grands modèles de vision-langue (LVLMs) ont obtenu des résultats impressionnants dans les tâches de réponse à des questions visuelles et de raisonnement grâce à l'ajustement des instructions visuelles sur des ensembles de données spécifiques. Cependant, il reste un important potentiel d'amélioration pour aligner les modalités visuelle et linguistique. Les méthodes existantes dépendent souvent de modèles ou de données externes, ce qui entraîne des résultats d'alignement non contrôlés et instables. Dans cet article, nous proposons SIMA, un cadre d'amélioration autonome qui renforce l'alignement des modalités visuelle et linguistique sans dépendre d'éléments externes. SIMA utilise les ensembles de données existants pour l'ajustement des instructions visuelles afin de générer automatiquement des réponses, intégrant un mécanisme d'autocritique contextuelle qui construit des paires de préférence pour l'ajustement. De manière cruciale, notre approche permet aux LVLMs d'agir comme critiques en concevant des prompts efficaces pour la critique, éliminant ainsi le besoin d'un ajustement supplémentaire avec des données d'instruction externes. Nous introduisons trois nouvelles métriques visuelles au sein du processus d'autocritique pour guider le jugement, améliorant considérablement la précision de l'autocritique. À travers une série d'expériences étendues sur 14 benchmarks hallucinatoires et exhaustifs, nous montrons que SIMA améliore significativement les performances des LVLMs et surpasse les approches précédentes, atteignant une meilleure alignement modalité.Note: - "Hallucination" est conservé tel quel car c'est un terme technique couramment utilisé en français dans le domaine de l'intelligence artificielle.- "Comprehensive benchmarks" est traduit par "benchmarks exhaustifs" pour conserver le sens de couverture complète.- "Modality alignment" est traduit par "alignement modalité" pour rester proche du terme technique original.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 10 mois

Réponse À Des Questions Visuelles

Affinage Supervisé

Multimodal

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 10 mois

Réponse À Des Questions Visuelles

Affinage Supervisé

Multimodal

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration | Articles | HyperAI

Command Palette

Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Amélioration de l'alignement modalité visuelle-langage dans les grands modèles vision-langage par l'auto-amélioration

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters