HyperAIHyperAI

Command Palette

Search for a command to run...

Éléments de liste un par un : une nouvelle source de données et un nouveau paradigme d'apprentissage pour les LLM multimodaux

Résumé

Le promptage Set-of-Mark (SoM) libère la capacité d’ancrage visuel de GPT-4V en permettant au modèle d’associer des objets visuels aux balises insérées directement dans l’image. Ces balises, marquées par des caractères alphanumériques, peuvent être indexées via des jetons textuels pour une référence facile. Bien que GPT-4V affiche des performances exceptionnelles, nous observons que d'autres Modèles Linguistiques Multimodaux (MLLMs) open-source peinent à comprendre ces balises visuelles. Afin de favoriser l’apprentissage du promptage SoM pour les modèles open-source, nous proposons un nouveau paradigme d’apprentissage : « lister les éléments un par un », qui incite le modèle à énumérer et décrire tous les objets balisés sur l’image selon l’ordre alphanumérique des balises. En intégrant notre jeu de données soigneusement construit à d’autres jeux de données d’instruction visuelle, nous parvenons à doter les MLLMs existants de la capacité de promptage SoM. Par ailleurs, nous évaluons nos modèles fine-tunés SoM sur cinq benchmarks de MLLM. Nous constatons que ce nouveau jeu de données, même de taille relativement modeste (10k à 30k images munies de balises), améliore significativement les capacités de raisonnement visuel et réduit les hallucinations chez les MLLM. Plus surprenant encore, ces améliorations persistent même lorsque les balises visuelles sont omises des images d’entrée lors de l’inférence. Cela suggère le potentiel du paradigme « lister les éléments un par un » comme une nouvelle approche d’entraînement pour les MLLM, renforçant l’alignement objet-texte grâce à l’utilisation de balises visuelles durant l’entraînement. Enfin, nous menons des analyses en sondant les modèles entraînés afin de mieux comprendre le mécanisme de fonctionnement du SoM. Notre code et nos données sont disponibles à l’adresse suivante : https://github.com/zzxslp/SoM-LLaVA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp