Mono-InternVL-1.5: Auf dem Weg zu günstigeren und schnelleren monolithischen multimodalen großen Sprachmodellen

Dieses Papier konzentriert sich auf monolithische multimodale große Sprachmodelle (MLLMs), die visuelle Kodierung und Sprachdekodierung in einem einzelnen Modell integrieren. Bestehende Strukturen und Vortrainingsstrategien für monolithische MLLMs leiden oft unter instabiler Optimierung und katastrophalischem Vergessen. Um diese Herausforderungen zu bewältigen, ist unsere zentrale Idee, einen neuen visuellen Parameterspace in ein vortrainiertes LLM einzubetten, was durch Delta-Tuning stabiles Lernen von visuellem Wissen aus verrauschten Daten ermöglicht. Auf dieser Grundlage stellen wir zunächst Mono-InternVL vor, ein fortschrittliches monolithisches MLLM, das eine Reihe von visuellen Experten durch eine multimodale Mixture-of-Experts-Architektur integriert. Zudem entwickeln wir eine innovative endogene visuelle Vortrainingsmethode (EViP) für Mono-InternVL, um dessen visuelle Fähigkeiten durch fortschreitendes Lernen zu maximieren. Mono-InternVL erzielt wettbewerbsfähige Leistungen im Vergleich zu bestehenden MLLMs, führt aber auch zu relativ hohen Datenkosten. Daher präsentieren wir weiter Mono-InternVL-1.5, ein kostengünstigeres und leistungsfähigeres monolithisches MLLM mit einem verbesserten EViP (EViP++). EViP++ fügt Mono-InternVL-1.5 zusätzliche visuelle Aufmerksamkeitsexperten hinzu und organisiert den Vortrainingprozess effizient neu. Während der Inferenz enthält es einen fusionierten CUDA-Kernel zur Beschleunigung seiner MoE-Operationen. Mit diesen Designentscheidungen reduziert Mono-InternVL-1.5 die Trainings- und Inferenzkosten erheblich, während es gleichzeitig wettbewerbsfähige Leistungen gegenüber Mono-InternVL beibehält. Um unseren Ansatz zu evaluieren, führen wir umfangreiche Experimente auf 15 Benchmarks durch. Die Ergebnisse zeigen, dass Mono-InternVL 12 von 15 Benchmarks gegenüber bestehenden monolithischen MLLMs überlegen ist, z.B. eine Verbesserung um 114 Punkte gegenüber Emu3 auf OCRBench. Im Vergleich zu seinem modularen Pendant, nämlich InternVL-1.5, erreicht Mono-InternVL-1.5 ähnliche multimodale Leistungen und reduziert die Latenz des ersten Tokens bis zu 69 %. Der Quellcode und die Modelle werden unter https://github.com/OpenGVLab/Mono-InternVL veröffentlicht.注:在科技或学术写作中,通常会保留一些专有名词的英文形式,如“CUDA”、“MoE”(Mixture of Experts)、“OCR”(Optical Character Recognition)等。这些术语在德语文献中也广泛使用。