Command Palette
Search for a command to run...
Renforcement des grands modèles linguistiques multimodaux par optimisation des préférences par bootstrap
Renforcement des grands modèles linguistiques multimodaux par optimisation des préférences par bootstrap
Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang
Résumé
Les modèles linguistiques à grande échelle multimodaux (MLLM) se distinguent par leur capacité à générer des réponses fondées sur des entrées visuelles. Toutefois, ils souffrent fréquemment d’un biais conduisant à des réponses similaires à celles présentes dans leur corpus de préentraînement, ce qui atténue l’importance des informations visuelles. Nous considérons ce biais comme une « préférence » pour les statistiques d’entraînement préalable, qui entrave l’ancrage du modèle dans les entrées visuelles. Pour atténuer ce problème, nous proposons une optimisation de préférence par bootstrap (BPO), qui met en œuvre un apprentissage par préférence à partir de jeux de données incluant des réponses négatives générées de manière auto-bootstrappée par le modèle lui-même. Plus précisément, nous proposons deux stratégies : 1) utiliser des entrées d’images altérées dans le MLLM afin d’extraire des réponses présentant des signes évidents de biais d’entraînement préalable ; 2) exploiter un modèle linguistique basé sur le texte (LLM) pour injecter explicitement des éléments erronés mais courants dans les réponses initiales. Ces réponses indésirables sont ensuite appariées avec les réponses annotées d’origine provenant des jeux de données afin de constituer un jeu de données de préférence, utilisé ultérieurement pour l’apprentissage par préférence. Notre approche supprime efficacement le biais des LLM préentraînés, permettant une meilleure ancrage dans les entrées visuelles. Des expérimentations étendues démontrent des améliorations significatives des performances sur plusieurs benchmarks, marquant une avancée notable dans l’état de l’art des systèmes conversationnels multimodaux.