vor 2 Monaten

Honeybee: Lokalitätsverstärkter Projektor für multimodale LLM

Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh

Abstract

In multimodalen großen Sprachmodellen (Multimodal Large Language Models, MLLMs) übernimmt ein visueller Projektor eine entscheidende Rolle bei der Verbindung vortrainierter visueller Encoder mit den großen Sprachmodellen. Dies ermöglicht eine tiefe visuelle Verständnisfähigkeit, während es die robusten Fähigkeiten der großen Sprachmodelle nutzt. Trotz der Bedeutung des visuellen Projektors wurde er bisher relativ wenig erforscht. In dieser Studie identifizieren wir zunächst zwei wesentliche Eigenschaften des Projektors: (i) Flexibilität bei der Verwaltung der Anzahl von visuellen Token, was für die Gesamteffizienz der MLLMs entscheidend ist, und (ii) Erhaltung des lokalen Kontextes aus den visuellen Features, was für das räumliche Verständnis von grundlegender Bedeutung ist. Auf Basis dieser Erkenntnisse schlagen wir ein neuartiges Projektor-Design vor, das sowohl flexibel als auch lokalitätsverstärkend ist und somit die beiden wünschenswerten Eigenschaften effektiv erfüllt. Zudem präsentieren wir umfassende Strategien zur effektiven Nutzung mehrerer und vielfältiger Anweisungsdatensätze. Durch umfangreiche Experimente untersuchen wir den Einfluss einzelner Designentscheidungen. Schließlich übertrifft unser vorgeschlagenes MLLM, Honeybee, bestehende Methoden auf dem neuesten Stand der Technik in verschiedenen Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, erheblich und erreicht dabei deutlich höhere Effizienz. Der Quellcode und die Modelle sind unter https://github.com/kakaobrain/honeybee verfügbar.