HyperAIHyperAI

Command Palette

Search for a command to run...

DeepStack : empiler profondément des jetons visuels est étonnamment simple et efficace pour les LMM

Lingchen Meng Jianwei Yang Rui Tian Xiyang Dai Zuxuan Wu Jianfeng Gao Yu-Gang Jiang

Résumé

La plupart des grands modèles multimodaux (LMMs) sont implémentés en alimentant les jetons visuels sous forme de séquence dans la première couche d’un grand modèle linguistique (LLM). Cette architecture, bien qu’élégante, entraîne une augmentation significative des coûts de calcul et de mémoire, car elle doit traiter un grand nombre de jetons supplémentaires dans sa couche d’entrée. Ce papier présente une nouvelle architecture, DeepStack, dédiée aux LMMs. En considérant NNN couches dans les transformeurs linguistiques et visuels des LMMs, nous regroupons les jetons visuels en NNN groupes et les alimentons, de manière alignée, dans leurs couches transformeurs respectives, de bas en haut. De manière surprenante, cette méthode simple permet de renforcer considérablement la capacité des LMMs à modéliser les interactions entre les jetons visuels à travers les couches, tout en ajoutant un coût minimal. Nous appliquons DeepStack à la fois aux transformeurs linguistiques et visuels des LMMs, et validons son efficacité à l’aide d’expérimentations étendues. Avec la même longueur de contexte, nos modèles DeepStack de 7B et 13B de paramètres surpassent respectivement leurs homologues de \textbf{2,7} et \textbf{2,9} en moyenne sur \textbf{9} benchmarks. En utilisant seulement un cinquième de la longueur de contexte, DeepStack rivalise étroitement avec les modèles utilisant la longueur de contexte complète. Ces gains sont particulièrement marqués sur les tâches à haute résolution : une amélioration de \textbf{4,2}, \textbf{11,0} et \textbf{4,0} respectivement sur TextVQA, DocVQA et InfoVQA par rapport à LLaVA-1.5-7B. Nous étendons également DeepStack aux couches du transformeur visuel, obtenant des gains similaires, soit une amélioration moyenne de \textbf{3,8} par rapport à LLaVA-1.5-7B.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp