il y a 4 mois

MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) open source ont fait preuve d’un potentiel important dans un large éventail de tâches multimodales. Toutefois, leurs capacités de raisonnement restent limitées par les jeux de données actuels utilisés pour la calibration par instruction, qui sont principalement des jeux de données académiques réutilisés, tels que VQA, AI2D et ChartQA. Ces jeux de données ciblent des tâches simples et ne fournissent que des réponses au niveau des phrases, sans aucune justification intermédiaire. Pour relever ces défis, nous proposons une méthode évolutif et peu coûteuse pour construire un grand jeu de données de calibration par instruction multimodal, riche en justifications intermédiaires, conçu pour stimuler le raisonnement par chaîne de pensée (CoT). En n’utilisant que des modèles open source, nous avons créé un jeu de données comprenant 12 millions de paires instruction-réponse, couvrant une diversité de tâches exigeant un raisonnement approfondi, avec des justifications détaillées et fiables. Des expériences montrent que la formation des MLLM sur ce jeu de données améliore significativement leurs capacités de raisonnement, atteignant des performances de pointe sur des benchmarks tels que MathVerse (+8,1 %), MMMU-Pro (+7 %) et MuirBench (+13,3 %). Par ailleurs, le modèle montre des améliorations notables, allant jusqu’à 4 %, sur des benchmarks ne reposant pas sur le raisonnement. Des études d’ablation mettent en évidence, en outre, l’importance des composants clés, tels que la réécriture et le filtrage auto-évalué, dans le processus de construction du jeu de données.

Dépôts de code

mammoth-vl/mammoth-vl

pytorch

Mentionné dans GitHub

Benchmarks

Benchmark	Méthodologie	Métriques
visual-question-answering-on-mm-vet	MAmmoTH-VL-8B (SI)	GPT-4 score: 60.6
visual-question-answering-on-mm-vet	MAmmoTH-VL-8B	GPT-4 score: 62.3

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette