HyperAIHyperAI

Command Palette

Search for a command to run...

RLAIF-V : Un retour d'information IA open-source conduit à une fiabilité supérieure à celle de GPT-4V

Résumé

L’apprentissage par rétroaction traditionnel visant à réduire les hallucinations repose sur des étiquetages manuels coûteux en main-d’œuvre ou sur des modèles propriétaires onéreux. Cette situation laisse la communauté sans connaissances fondamentales sur la manière de construire des feedbacks de haute qualité à l’aide de MLLMs open-source. Dans ce travail, nous introduisons RLAIF-V, un cadre novateur qui aligne les MLLMs dans un paradigme entièrement open-source. RLAIF-V exploite de manière optimale les MLLMs open-source sous deux angles : la génération de données de feedback de haute qualité pour l’apprentissage par préférence, et la guidance par auto-rétroaction pour l’échelle au moment de l’inférence. Des expérimentations étendues sur six benchmarks, évaluées aussi bien automatiquement qu’humainement, montrent que RLAIF-V améliore de manière significative la fiabilité des modèles, tant durant l’apprentissage par préférence que lors de l’inférence. Le modèle RLAIF-V 7B réduit les hallucinations d’objets de 80,7 % et les hallucinations globales de 33,7 %. De manière remarquable, RLAIF-V 12B révèle un potentiel d’auto-alignement des MLLMs open-source, où le modèle parvient à apprendre à partir de ses propres feedbacks afin d’atteindre une fiabilité supérieure à celle du GPT-4V.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp