NVILA: Effiziente visuelle Sprachmodelle am effizienten Rand

Visuelle Sprachmodelle (VLMs) haben in den letzten Jahren erhebliche Fortschritte hinsichtlich der Genauigkeit erzielt. Ihre Effizienz hingegen hat dagegen viel weniger Aufmerksamkeit erhalten. In diesem Paper stellen wir NVILA vor, eine Familie offener VLMs, die darauf ausgelegt ist, sowohl Effizienz als auch Genauigkeit zu optimieren. Aufbauend auf VILA verbessern wir die Modellarchitektur zunächst durch eine Erhöhung der räumlichen und zeitlichen Auflösung, gefolgt von einer Kompression der visuellen Tokens. Dieser „skalieren-dann-komprimieren“-Ansatz ermöglicht es NVILA, hochauflösende Bilder und lange Videos effizient zu verarbeiten. Zudem führen wir eine systematische Untersuchung durch, um die Effizienz von NVILA über seinen gesamten Lebenszyklus – von der Trainings- und Feinabstimmung bis zur Bereitstellung – zu verbessern. NVILA erreicht oder übertrifft die Genauigkeit vieler führender offener und proprietärer VLMs auf einer Vielzahl von Bild- und Videobenchmarks. Gleichzeitig reduziert es die Trainingskosten um das 4,5-Fache, den Speicherverbrauch bei der Feinabstimmung um das 3,4-Fache, die Prä-Belegungs-Latenz um das 1,6- bis 2,2-Fache und die Dekodier-Latenz um das 1,2- bis 2,8-Fache. In Kürze werden wir unseren Code und die Modelle zur Verfügung stellen, um die Reproduzierbarkeit zu fördern.