vor 17 Tagen

DeepStack: Tiefes Stapeln visueller Tokens ist überraschend einfach und effektiv für LMMs

Lingchen Meng, Jianwei Yang, Rui Tian, Xiyang Dai, Zuxuan Wu, Jianfeng Gao, Yu-Gang Jiang

Abstract

Die meisten großen multimodalen Modelle (LMMs) werden derzeit durch die Eingabe von visuellen Tokens als Sequenz in die erste Schicht eines großen Sprachmodells (LLM) implementiert. Die resultierende Architektur ist einfach, erhöht jedoch die Berechnungs- und Speicherkosten erheblich, da eine große Anzahl zusätzlicher Tokens in der Eingabeschicht verarbeitet werden muss. In dieser Arbeit präsentieren wir eine neue Architektur namens DeepStack für LMMs. Berücksichtigt man $N$ Schichten im Sprach- und Vision-Transformer von LMMs, werden die visuellen Tokens in $N$ Gruppen aufgeteilt und jeweils einer entsprechenden Transformer-Schicht von unten nach oben zugeführt. Überraschenderweise erhöht diese einfache Methode die Fähigkeit von LMMs erheblich, Wechselwirkungen zwischen visuellen Tokens über verschiedene Schichten hinweg zu modellieren, und zwar mit nur minimalen zusätzlichen Kosten. Wir wenden DeepStack sowohl auf die Sprach- als auch auf die Vision-Transformer-Schichten in LMMs an und bestätigen die Wirksamkeit von DeepStack-LMMs durch umfassende empirische Ergebnisse. Bei gleichbleibender Kontextlänge übertrifft unser DeepStack-Modell mit 7B Parametern die jeweiligen Baseline-Modelle im Durchschnitt um 2,7 und das 13B-Modell um 2,9 auf insgesamt 9 Benchmarks. Bei nur einem Fünftel der ursprünglichen Kontextlänge erreicht DeepStack nahezu die Leistung der Vergleichsmodelle, die die volle Kontextlänge nutzen. Diese Verbesserungen sind besonders deutlich bei Aufgaben mit hoher Auflösung, beispielsweise 4,2, 11,0 und 4,0 Punkte mehr auf TextVQA, DocVQA und InfoVQA im Vergleich zu LLaVA-1.5-7B. Darüber hinaus wenden wir DeepStack auch auf die Vision-Transformer-Schichten an, was zu einer vergleichbaren Leistungssteigerung führt: im Durchschnitt 3,8 Punkte mehr im Vergleich zu LLaVA-1.5-7B.