HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux

Résumé

Nous présentons MM1.5, une nouvelle famille de modèles linguistiques à grande échelle multimodaux (MLLM), conçus pour améliorer les capacités en compréhension d’images riches en texte, en référencement visuel et en ancrage, ainsi qu’en raisonnement sur plusieurs images. S’appuyant sur l’architecture MM1, MM1.5 adopte une approche centrée sur les données pour l’entraînement des modèles, en explorant de manière systématique l’impact de diverses combinaisons de données tout au long du cycle de vie d’entraînement. Cela inclut des données de haute qualité issues de reconnaissance optique de caractères (OCR) et des légendes synthétiques pour le pré-entraînement continu, ainsi qu’un ensemble de données optimisé pour le réglage par instruction visuelle (visual instruction-tuning) lors du finetuning supervisé. Nos modèles varient de 1 milliard à 30 milliards de paramètres, comprenant à la fois des variantes à densité constante et des variantes à mélange d’experts (MoE), et démontrent que des stratégies soigneuses de curation des données et d’entraînement peuvent produire de performances remarquables même à petite échelle (1B et 3B). En outre, nous introduisons deux variantes spécialisées : MM1.5-Video, conçu pour la compréhension de vidéos, et MM1.5-UI, adapté à la compréhension des interfaces utilisateur mobiles. Grâce à des études empiriques approfondies et des analyses d’ablation, nous fournissons des éclairages détaillés sur les processus d’entraînement et les décisions qui ont guidé nos conceptions finales, offrant ainsi des orientations précieuses pour les recherches futures en développement de MLLM.

Benchmarks

BenchmarkMéthodologieMétriques
visual-question-answering-on-mm-vetMM1.5-30B
GPT-4 score: 52.0
visual-question-answering-on-mm-vetMM1.5-3B
GPT-4 score: 41.0
visual-question-answering-on-mm-vetMM1.5-1B-MoE
GPT-4 score: 39.8
visual-question-answering-on-mm-vetMM1.5-7B
GPT-4 score: 42.2
visual-question-answering-on-mm-vetMM1.5-1B
GPT-4 score: 37.4
visual-question-answering-on-mm-vetMM1.5-3B-MoE
GPT-4 score: 43.7

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MM1.5 : Méthodes, analyse et enseignements tirés de l'ajustement fin des modèles linguistiques multimodaux | Articles de recherche | HyperAI