HyperAIHyperAI

Command Palette

Search for a command to run...

Honeybee: Lokalitätsverstärkter Projektor für multimodale LLM

Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh

Zusammenfassung

In multimodalen großen Sprachmodellen (Multimodal Large Language Models, MLLMs) übernimmt ein visueller Projektor eine entscheidende Rolle bei der Verbindung vortrainierter visueller Encoder mit den großen Sprachmodellen. Dies ermöglicht eine tiefe visuelle Verständnisfähigkeit, während es die robusten Fähigkeiten der großen Sprachmodelle nutzt. Trotz der Bedeutung des visuellen Projektors wurde er bisher relativ wenig erforscht. In dieser Studie identifizieren wir zunächst zwei wesentliche Eigenschaften des Projektors: (i) Flexibilität bei der Verwaltung der Anzahl von visuellen Token, was für die Gesamteffizienz der MLLMs entscheidend ist, und (ii) Erhaltung des lokalen Kontextes aus den visuellen Features, was für das räumliche Verständnis von grundlegender Bedeutung ist. Auf Basis dieser Erkenntnisse schlagen wir ein neuartiges Projektor-Design vor, das sowohl flexibel als auch lokalitätsverstärkend ist und somit die beiden wünschenswerten Eigenschaften effektiv erfüllt. Zudem präsentieren wir umfassende Strategien zur effektiven Nutzung mehrerer und vielfältiger Anweisungsdatensätze. Durch umfangreiche Experimente untersuchen wir den Einfluss einzelner Designentscheidungen. Schließlich übertrifft unser vorgeschlagenes MLLM, Honeybee, bestehende Methoden auf dem neuesten Stand der Technik in verschiedenen Benchmarks, einschließlich MME, MMBench, SEED-Bench und LLaVA-Bench, erheblich und erreicht dabei deutlich höhere Effizienz. Der Quellcode und die Modelle sind unter https://github.com/kakaobrain/honeybee verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Honeybee: Lokalitätsverstärkter Projektor für multimodale LLM | Paper | HyperAI