vor 3 Monaten

NVILA: Effiziente visuelle Sprachmodelle am effizienten Rand

Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu

Details der Forschungsarbeit anzeigen View Code

NVILA: Effiziente visuelle Sprachmodelle am effizienten Rand

Abstract

Visuelle Sprachmodelle (VLMs) haben in den letzten Jahren erhebliche Fortschritte hinsichtlich der Genauigkeit erzielt. Ihre Effizienz hingegen hat dagegen viel weniger Aufmerksamkeit erhalten. In diesem Paper stellen wir NVILA vor, eine Familie offener VLMs, die darauf ausgelegt ist, sowohl Effizienz als auch Genauigkeit zu optimieren. Aufbauend auf VILA verbessern wir die Modellarchitektur zunächst durch eine Erhöhung der räumlichen und zeitlichen Auflösung, gefolgt von einer Kompression der visuellen Tokens. Dieser „skalieren-dann-komprimieren“-Ansatz ermöglicht es NVILA, hochauflösende Bilder und lange Videos effizient zu verarbeiten. Zudem führen wir eine systematische Untersuchung durch, um die Effizienz von NVILA über seinen gesamten Lebenszyklus – von der Trainings- und Feinabstimmung bis zur Bereitstellung – zu verbessern. NVILA erreicht oder übertrifft die Genauigkeit vieler führender offener und proprietärer VLMs auf einer Vielzahl von Bild- und Videobenchmarks. Gleichzeitig reduziert es die Trainingskosten um das 4,5-Fache, den Speicherverbrauch bei der Feinabstimmung um das 3,4-Fache, die Prä-Belegungs-Latenz um das 1,6- bis 2,2-Fache und die Dekodier-Latenz um das 1,2- bis 2,8-Fache. In Kürze werden wir unseren Code und die Modelle zur Verfügung stellen, um die Reproduzierbarkeit zu fördern.