ProVision : Échelle Programmée des Données d'Instruction centrées sur la Vision pour les Modèles de Langue Multimodaux

Avec l'essor des applications multimodales, les données d'instruction sont devenues cruciales pour former des modèles de langage multimodaux capables de comprendre des requêtes complexes basées sur des images. Les pratiques actuelles s'appuient sur des grands modèles de langage (LLMs) puissants mais coûteux ou sur des modèles de langage multimodaux (MLMs) pour produire ces données d'instruction. Ces méthodes sont souvent sujettes aux hallucinations, aux problèmes de licence et le processus de génération est généralement difficile à mettre à l'échelle et à interpréter. Dans cette étude, nous présentons une approche programmatique qui utilise des graphes de scène comme représentations symboliques d'images et des programmes écrits par des humains pour synthétiser systématiquement des données d'instruction centrées sur la vision. Notre approche garantit l'interprétabilité et la contrôlabilité du processus de génération de données tout en étant efficace à l'échelle tout en maintenant une précision factuelle. En mettant en œuvre un ensemble de 24 générateurs d'instructions mono-image, 14 générateurs d'instructions multi-images et un pipeline de génération de graphes de scène, nous avons construit un système évolutif et rentable : ProVision, qui produit des paires question-réponse diversifiées concernant les objets, les attributs, les relations, la profondeur, etc., pour toute image donnée.Appliqué aux jeux de données Visual Genome et DataComp, notre système génère plus de 10 millions de points de données d'instruction, ProVision-10M, que nous utilisons dans les phases d'entraînement préalable et d'ajustement des instructions des MLMs. Lorsqu'il est adopté dans la phase d'ajustement des instructions, nos données d'instructions mono-image permettent une amélioration allant jusqu'à 7 % sur la partition 2D et 8 % sur la partition 3D de CVBench, ainsi qu'une augmentation moyenne de 3 % des performances sur QBench2, RealWorldQA et MMMU. Nos données d'instructions multi-images entraînent une amélioration de 8 % sur Mantis-Eval. L'intégration de nos données dans les phases d'entraînement préalable et d'affinage du modèle xGen-MM-4B conduit à une amélioration moyenne de 1,6 % sur 11 benchmarks.