il y a 3 mois

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Haotian Zhang Mingfei Gao Zhe Gan Philipp Dufter Nina Wenzel Forrest Huang Dhruti Shah Xianzhi Du Bowen Zhang Yanghao Li

Résumé

Nous présentons MM1.5, une nouvelle famille de modèles linguistiques à grande échelle multimodaux (MLLM), conçus pour améliorer les capacités en compréhension d’images riches en texte, en référencement visuel et en ancrage, ainsi qu’en raisonnement sur plusieurs images. S’appuyant sur l’architecture MM1, MM1.5 adopte une approche centrée sur les données pour l’entraînement des modèles, en explorant de manière systématique l’impact de diverses combinaisons de données tout au long du cycle de vie d’entraînement. Cela inclut des données de haute qualité issues de reconnaissance optique de caractères (OCR) et des légendes synthétiques pour le pré-entraînement continu, ainsi qu’un ensemble de données optimisé pour le réglage par instruction visuelle (visual instruction-tuning) lors du finetuning supervisé. Nos modèles varient de 1 milliard à 30 milliards de paramètres, comprenant à la fois des variantes à densité constante et des variantes à mélange d’experts (MoE), et démontrent que des stratégies soigneuses de curation des données et d’entraînement peuvent produire de performances remarquables même à petite échelle (1B et 3B). En outre, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension de vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. Grâce à des études empiriques approfondies et des analyses d’ablation, nous fournissons des éclairages détaillés sur les processus d’entraînement et les décisions qui ont guidé nos conceptions finales, offrant ainsi des orientations précieuses pour les recherches futures en développement de MLLM.

Benchmarks

Benchmark	Méthodologie	Métriques
visual-question-answering-on-mm-vet	MM1.5-30B	GPT-4 score: 52.0
visual-question-answering-on-mm-vet	MM1.5-3B	GPT-4 score: 41.0
visual-question-answering-on-mm-vet	MM1.5-1B-MoE	GPT-4 score: 39.8
visual-question-answering-on-mm-vet	MM1.5-7B	GPT-4 score: 42.2
visual-question-answering-on-mm-vet	MM1.5-1B	GPT-4 score: 37.4
visual-question-answering-on-mm-vet	MM1.5-3B-MoE	GPT-4 score: 43.7

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette