Éléments de liste un par un : une nouvelle source de données et un nouveau paradigme d'apprentissage pour les LLM multimodaux

Le promptage Set-of-Mark (SoM) libère la capacité d’ancrage visuel de GPT-4V en permettant au modèle d’associer des objets visuels aux balises insérées directement dans l’image. Ces balises, marquées par des caractères alphanumériques, peuvent être indexées via des jetons textuels pour une référence facile. Bien que GPT-4V affiche des performances exceptionnelles, nous observons que d'autres Modèles Linguistiques Multimodaux (MLLMs) open-source peinent à comprendre ces balises visuelles. Afin de favoriser l’apprentissage du promptage SoM pour les modèles open-source, nous proposons un nouveau paradigme d’apprentissage : « lister les éléments un par un », qui incite le modèle à énumérer et décrire tous les objets balisés sur l’image selon l’ordre alphanumérique des balises. En intégrant notre jeu de données soigneusement construit à d’autres jeux de données d’instruction visuelle, nous parvenons à doter les MLLMs existants de la capacité de promptage SoM. Par ailleurs, nous évaluons nos modèles fine-tunés SoM sur cinq benchmarks de MLLM. Nous constatons que ce nouveau jeu de données, même de taille relativement modeste (10k à 30k images munies de balises), améliore significativement les capacités de raisonnement visuel et réduit les hallucinations chez les MLLM. Plus surprenant encore, ces améliorations persistent même lorsque les balises visuelles sont omises des images d’entrée lors de l’inférence. Cela suggère le potentiel du paradigme « lister les éléments un par un » comme une nouvelle approche d’entraînement pour les MLLM, renforçant l’alignement objet-texte grâce à l’utilisation de balises visuelles durant l’entraînement. Enfin, nous menons des analyses en sondant les modèles entraînés afin de mieux comprendre le mécanisme de fonctionnement du SoM. Notre code et nos données sont disponibles à l’adresse suivante : https://github.com/zzxslp/SoM-LLaVA.