Command Palette
Search for a command to run...
Meteor : Exploration basée sur Mamba des justifications pour les grands modèles linguistiques et visuels
Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

Résumé
Le développement rapide des grands modèles linguistiques et visuels (LLVMs) s'est principalement fondé sur les progrès réalisés dans le réglage par instruction visuelle. Récemment, les LLVMs open source ont constitué des jeux de données de réglage par instruction visuelle de haute qualité, tout en intégrant des encodeurs visuels supplémentaires ou plusieurs modèles de vision par ordinateur afin de réduire l'écart de performance par rapport aux puissants LLVMs propriétaires. Ces progrès s'expliquent par la nécessité d'information multifacette pour assurer des capacités diversifiées, incluant la compréhension fondamentale des images, des connaissances du monde réel sur des concepts courants et non objets (tels que les graphiques, les schémas, les symboles, les signes et les problèmes mathématiques), ainsi que des procédures étape par étape pour résoudre des questions complexes. Inspirés par cette richesse d'informations multifacettes, nous proposons un nouveau LLVM efficace, Meteor (Mamba-based traversal of rationales), qui exploite la raison multifacette afin d'améliorer les capacités de compréhension et de réponse. Pour intégrer des raisonnements longs contenant une grande quantité d'informations, nous utilisons l'architecture Mamba, capable de traiter les données séquentielles avec une complexité temporelle linéaire. Nous introduisons un nouveau concept, celui de parcours de la raison (traversal of rationale), permettant une intégration efficace des raisonnements. Ensuite, le modèle linguistique multimodal (MLM) principal est entraîné à générer des réponses avec l'aide de ces raisonnements. Grâce à ces étapes, Meteor atteint des améliorations significatives dans les performances vision-langage sur plusieurs benchmarks d'évaluation exigeant des capacités diversifiées, sans augmenter la taille du modèle ni recourir à des encodeurs visuels supplémentaires ou à des modèles de vision par ordinateur supplémentaires.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | Meteor | GPT-4 score: 57.3 Params: 7B |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.