HyperAIHyperAI

Command Palette

Search for a command to run...

NVILA: Effiziente visuelle Sprachmodelle am effizienten Rand

Zusammenfassung

Visuelle Sprachmodelle (VLMs) haben in den letzten Jahren erhebliche Fortschritte hinsichtlich der Genauigkeit erzielt. Ihre Effizienz hingegen hat dagegen viel weniger Aufmerksamkeit erhalten. In diesem Paper stellen wir NVILA vor, eine Familie offener VLMs, die darauf ausgelegt ist, sowohl Effizienz als auch Genauigkeit zu optimieren. Aufbauend auf VILA verbessern wir die Modellarchitektur zunächst durch eine Erhöhung der räumlichen und zeitlichen Auflösung, gefolgt von einer Kompression der visuellen Tokens. Dieser „skalieren-dann-komprimieren“-Ansatz ermöglicht es NVILA, hochauflösende Bilder und lange Videos effizient zu verarbeiten. Zudem führen wir eine systematische Untersuchung durch, um die Effizienz von NVILA über seinen gesamten Lebenszyklus – von der Trainings- und Feinabstimmung bis zur Bereitstellung – zu verbessern. NVILA erreicht oder übertrifft die Genauigkeit vieler führender offener und proprietärer VLMs auf einer Vielzahl von Bild- und Videobenchmarks. Gleichzeitig reduziert es die Trainingskosten um das 4,5-Fache, den Speicherverbrauch bei der Feinabstimmung um das 3,4-Fache, die Prä-Belegungs-Latenz um das 1,6- bis 2,2-Fache und die Dekodier-Latenz um das 1,2- bis 2,8-Fache. In Kürze werden wir unseren Code und die Modelle zur Verfügung stellen, um die Reproduzierbarkeit zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp