il y a 3 mois

NVILA : Modèles linguistiques visuels pour les frontières efficaces

Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu

Voir les détails de l'article View Code

NVILA : Modèles linguistiques visuels pour les frontières efficaces

Résumé

Les modèles linguistiques visuels (VLM) ont connu des progrès significatifs en précision ces dernières années. Toutefois, leur efficacité a reçu bien moins d'attention. Ce papier présente NVILA, une famille de VLM open-source conçus pour optimiser à la fois l'efficacité et la précision. S'appuyant sur VILA, nous améliorons son architecture en d'abord augmentant les résolutions spatiale et temporelle, puis en compressant les jetons visuels. Cette approche « échelle puis compression » permet à NVILA de traiter efficacement des images haute résolution et des vidéos longues. Nous menons également une étude systématique visant à améliorer l'efficacité de NVILA tout au long de son cycle de vie, depuis l'entraînement et le fine-tuning jusqu'à son déploiement. NVILA atteint ou dépasse la précision de nombreux VLM open-source et propriétaires de pointe sur une large gamme de benchmarks d'images et de vidéos. Par ailleurs, il réduit les coûts d'entraînement de 4,5 fois, l'utilisation de mémoire lors du fine-tuning de 3,4 fois, la latence de pré-remplissage de 1,6 à 2,2 fois, et la latence de décodage de 1,2 à 2,8 fois. Nous mettrons bientôt notre code et nos modèles à disposition afin de faciliter la reproductibilité.