DeepStack : empiler profondément des jetons visuels est étonnamment simple et efficace pour les LMM

La plupart des grands modèles multimodaux (LMMs) sont implémentés en alimentant les jetons visuels sous forme de séquence dans la première couche d’un grand modèle linguistique (LLM). Cette architecture, bien qu’élégante, entraîne une augmentation significative des coûts de calcul et de mémoire, car elle doit traiter un grand nombre de jetons supplémentaires dans sa couche d’entrée. Ce papier présente une nouvelle architecture, DeepStack, dédiée aux LMMs. En considérant $N$ couches dans les transformeurs linguistiques et visuels des LMMs, nous regroupons les jetons visuels en $N$ groupes et les alimentons, de manière alignée, dans leurs couches transformeurs respectives, de bas en haut. De manière surprenante, cette méthode simple permet de renforcer considérablement la capacité des LMMs à modéliser les interactions entre les jetons visuels à travers les couches, tout en ajoutant un coût minimal. Nous appliquons DeepStack à la fois aux transformeurs linguistiques et visuels des LMMs, et validons son efficacité à l’aide d’expérimentations étendues. Avec la même longueur de contexte, nos modèles DeepStack de 7B et 13B de paramètres surpassent respectivement leurs homologues de \textbf{2,7} et \textbf{2,9} en moyenne sur \textbf{9} benchmarks. En utilisant seulement un cinquième de la longueur de contexte, DeepStack rivalise étroitement avec les modèles utilisant la longueur de contexte complète. Ces gains sont particulièrement marqués sur les tâches à haute résolution : une amélioration de \textbf{4,2}, \textbf{11,0} et \textbf{4,0} respectivement sur TextVQA, DocVQA et InfoVQA par rapport à LLaVA-1.5-7B. Nous étendons également DeepStack aux couches du transformeur visuel, obtenant des gains similaires, soit une amélioration moyenne de \textbf{3,8} par rapport à LLaVA-1.5-7B.