Command Palette
Search for a command to run...
MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux
Résumé
Nous présentons MM1.5, une nouvelle famille de modèles linguistiques à grande échelle multimodaux (MLLM), conçus pour améliorer les capacités en compréhension d’images riches en texte, en référencement visuel et en ancrage, ainsi qu’en raisonnement sur plusieurs images. S’appuyant sur l’architecture MM1, MM1.5 adopte une approche centrée sur les données pour l’entraînement des modèles, en explorant de manière systématique l’impact de diverses combinaisons de données tout au long du cycle de vie d’entraînement. Cela inclut des données de haute qualité issues de reconnaissance optique de caractères (OCR) et des légendes synthétiques pour le pré-entraînement continu, ainsi qu’un ensemble de données optimisé pour le réglage par instruction visuelle (visual instruction-tuning) lors du finetuning supervisé. Nos modèles varient de 1 milliard à 30 milliards de paramètres, comprenant à la fois des variantes à densité constante et des variantes à mélange d’experts (MoE), et démontrent que des stratégies soigneuses de curation des données et d’entraînement peuvent produire de performances remarquables même à petite échelle (1B et 3B). En outre, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension de vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. Grâce à des études empiriques approfondies et des analyses d’ablation, nous fournissons des éclairages détaillés sur les processus d’entraînement et les décisions qui ont guidé nos conceptions finales, offrant ainsi des orientations précieuses pour les recherches futures en développement de MLLM.
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | MM1.5-30B | GPT-4 score: 52.0 |
| visual-question-answering-on-mm-vet | MM1.5-3B | GPT-4 score: 41.0 |
| visual-question-answering-on-mm-vet | MM1.5-1B-MoE | GPT-4 score: 39.8 |
| visual-question-answering-on-mm-vet | MM1.5-7B | GPT-4 score: 42.2 |
| visual-question-answering-on-mm-vet | MM1.5-1B | GPT-4 score: 37.4 |
| visual-question-answering-on-mm-vet | MM1.5-3B-MoE | GPT-4 score: 43.7 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.