HyperAIHyperAI

Command Palette

Search for a command to run...

Renforcement des grands modèles linguistiques multimodaux par optimisation des préférences par bootstrap

Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) se distinguent par leur capacité à générer des réponses fondées sur des entrées visuelles. Toutefois, ils souffrent fréquemment d’un biais conduisant à des réponses similaires à celles présentes dans leur corpus de préentraînement, ce qui atténue l’importance des informations visuelles. Nous considérons ce biais comme une « préférence » pour les statistiques d’entraînement préalable, qui entrave l’ancrage du modèle dans les entrées visuelles. Pour atténuer ce problème, nous proposons une optimisation de préférence par bootstrap (BPO), qui met en œuvre un apprentissage par préférence à partir de jeux de données incluant des réponses négatives générées de manière auto-bootstrappée par le modèle lui-même. Plus précisément, nous proposons deux stratégies : 1) utiliser des entrées d’images altérées dans le MLLM afin d’extraire des réponses présentant des signes évidents de biais d’entraînement préalable ; 2) exploiter un modèle linguistique basé sur le texte (LLM) pour injecter explicitement des éléments erronés mais courants dans les réponses initiales. Ces réponses indésirables sont ensuite appariées avec les réponses annotées d’origine provenant des jeux de données afin de constituer un jeu de données de préférence, utilisé ultérieurement pour l’apprentissage par préférence. Notre approche supprime efficacement le biais des LLM préentraînés, permettant une meilleure ancrage dans les entrées visuelles. Des expérimentations étendues démontrent des améliorations significatives des performances sur plusieurs benchmarks, marquant une avancée notable dans l’état de l’art des systèmes conversationnels multimodaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Renforcement des grands modèles linguistiques multimodaux par optimisation des préférences par bootstrap | Articles | HyperAI