il y a 3 mois

Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels

Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

Résumé

Le développement rapide des grands modèles linguistiques et visuels (LLVMs) s'est principalement fondé sur les progrès réalisés dans le réglage par instruction visuelle. Récemment, les LLVMs open source ont constitué des jeux de données de réglage par instruction visuelle de haute qualité, tout en intégrant des encodeurs visuels supplémentaires ou plusieurs modèles de vision par ordinateur afin de réduire l'écart de performance par rapport aux puissants LLVMs propriétaires. Ces progrès s'expliquent par la nécessité d'information multifacette pour assurer des capacités diversifiées, incluant la compréhension fondamentale des images, des connaissances du monde réel sur des concepts courants et non objets (tels que les graphiques, les schémas, les symboles, les signes et les problèmes mathématiques), ainsi que des procédures étape par étape pour résoudre des questions complexes. Inspirés par cette richesse d'informations multifacettes, nous proposons un nouveau LLVM efficace, Meteor (Mamba-based traversal of rationales), qui exploite la raison multifacette afin d'améliorer les capacités de compréhension et de réponse. Pour intégrer des raisonnements longs contenant une grande quantité d'informations, nous utilisons l'architecture Mamba, capable de traiter les données séquentielles avec une complexité temporelle linéaire. Nous introduisons un nouveau concept, celui de parcours de la raison (traversal of rationale), permettant une intégration efficace des raisonnements. Ensuite, le modèle linguistique multimodal (MLM) principal est entraîné à générer des réponses avec l'aide de ces raisonnements. Grâce à ces étapes, Meteor atteint des améliorations significatives dans les performances vision-langage sur plusieurs benchmarks d'évaluation exigeant des capacités diversifiées, sans augmenter la taille du modèle ni recourir à des encodeurs visuels supplémentaires ou à des modèles de vision par ordinateur supplémentaires.

Dépôts de code

byungkwanlee/meteor

Officiel

pytorch

Mentionné dans GitHub

Benchmarks

Benchmark	Méthodologie	Métriques
visual-question-answering-on-mm-vet	Meteor	GPT-4 score: 57.3 Params: 7B

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette