HyperAIHyperAI

Command Palette

Search for a command to run...

DeepStack: Tiefes Stapeln visueller Tokens ist überraschend einfach und effektiv für LMMs

Lingchen Meng Jianwei Yang Rui Tian Xiyang Dai Zuxuan Wu Jianfeng Gao Yu-Gang Jiang

Zusammenfassung

Die meisten großen multimodalen Modelle (LMMs) werden derzeit durch die Eingabe von visuellen Tokens als Sequenz in die erste Schicht eines großen Sprachmodells (LLM) implementiert. Die resultierende Architektur ist einfach, erhöht jedoch die Berechnungs- und Speicherkosten erheblich, da eine große Anzahl zusätzlicher Tokens in der Eingabeschicht verarbeitet werden muss. In dieser Arbeit präsentieren wir eine neue Architektur namens DeepStack für LMMs. Berücksichtigt man NNN Schichten im Sprach- und Vision-Transformer von LMMs, werden die visuellen Tokens in NNN Gruppen aufgeteilt und jeweils einer entsprechenden Transformer-Schicht von unten nach oben zugeführt. Überraschenderweise erhöht diese einfache Methode die Fähigkeit von LMMs erheblich, Wechselwirkungen zwischen visuellen Tokens über verschiedene Schichten hinweg zu modellieren, und zwar mit nur minimalen zusätzlichen Kosten. Wir wenden DeepStack sowohl auf die Sprach- als auch auf die Vision-Transformer-Schichten in LMMs an und bestätigen die Wirksamkeit von DeepStack-LMMs durch umfassende empirische Ergebnisse. Bei gleichbleibender Kontextlänge übertrifft unser DeepStack-Modell mit 7B Parametern die jeweiligen Baseline-Modelle im Durchschnitt um 2,7 und das 13B-Modell um 2,9 auf insgesamt 9 Benchmarks. Bei nur einem Fünftel der ursprünglichen Kontextlänge erreicht DeepStack nahezu die Leistung der Vergleichsmodelle, die die volle Kontextlänge nutzen. Diese Verbesserungen sind besonders deutlich bei Aufgaben mit hoher Auflösung, beispielsweise 4,2, 11,0 und 4,0 Punkte mehr auf TextVQA, DocVQA und InfoVQA im Vergleich zu LLaVA-1.5-7B. Darüber hinaus wenden wir DeepStack auch auf die Vision-Transformer-Schichten an, was zu einer vergleichbaren Leistungssteigerung führt: im Durchschnitt 3,8 Punkte mehr im Vergleich zu LLaVA-1.5-7B.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp