HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle

Jarvis Guo Tuney Zheng Yuelin Bai Bo Li Yubo Wang King Zhu Yizhi Li Graham Neubig Wenhu Chen Xiang Yue

MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) open source ont fait preuve d’un potentiel important dans un large éventail de tâches multimodales. Toutefois, leurs capacités de raisonnement restent limitées par les jeux de données actuels utilisés pour la calibration par instruction, qui sont principalement des jeux de données académiques réutilisés, tels que VQA, AI2D et ChartQA. Ces jeux de données ciblent des tâches simples et ne fournissent que des réponses au niveau des phrases, sans aucune justification intermédiaire. Pour relever ces défis, nous proposons une méthode évolutif et peu coûteuse pour construire un grand jeu de données de calibration par instruction multimodal, riche en justifications intermédiaires, conçu pour stimuler le raisonnement par chaîne de pensée (CoT). En n’utilisant que des modèles open source, nous avons créé un jeu de données comprenant 12 millions de paires instruction-réponse, couvrant une diversité de tâches exigeant un raisonnement approfondi, avec des justifications détaillées et fiables. Des expériences montrent que la formation des MLLM sur ce jeu de données améliore significativement leurs capacités de raisonnement, atteignant des performances de pointe sur des benchmarks tels que MathVerse (+8,1 %), MMMU-Pro (+7 %) et MuirBench (+13,3 %). Par ailleurs, le modèle montre des améliorations notables, allant jusqu’à 4 %, sur des benchmarks ne reposant pas sur le raisonnement. Des études d’ablation mettent en évidence, en outre, l’importance des composants clés, tels que la réécriture et le filtrage auto-évalué, dans le processus de construction du jeu de données.

Dépôts de code

mammoth-vl/mammoth-vl
pytorch
Mentionné dans GitHub

Benchmarks

BenchmarkMéthodologieMétriques
visual-question-answering-on-mm-vetMAmmoTH-VL-8B (SI)
GPT-4 score: 60.6
visual-question-answering-on-mm-vetMAmmoTH-VL-8B
GPT-4 score: 62.3

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MAmmoTH-VL : Extraire le raisonnement multimodal par calibration d'instructions à grande échelle | Articles de recherche | HyperAI