NVILA : Modèles linguistiques visuels pour les frontières efficaces

Les modèles linguistiques visuels (VLM) ont connu des progrès significatifs en précision ces dernières années. Toutefois, leur efficacité a reçu bien moins d'attention. Ce papier présente NVILA, une famille de VLM open-source conçus pour optimiser à la fois l'efficacité et la précision. S'appuyant sur VILA, nous améliorons son architecture en d'abord augmentant les résolutions spatiale et temporelle, puis en compressant les jetons visuels. Cette approche « échelle puis compression » permet à NVILA de traiter efficacement des images haute résolution et des vidéos longues. Nous menons également une étude systématique visant à améliorer l'efficacité de NVILA tout au long de son cycle de vie, depuis l'entraînement et le fine-tuning jusqu'à son déploiement. NVILA atteint ou dépasse la précision de nombreux VLM open-source et propriétaires de pointe sur une large gamme de benchmarks d'images et de vidéos. Par ailleurs, il réduit les coûts d'entraînement de 4,5 fois, l'utilisation de mémoire lors du fine-tuning de 3,4 fois, la latence de pré-remplissage de 1,6 à 2,2 fois, et la latence de décodage de 1,2 à 2,8 fois. Nous mettrons bientôt notre code et nos modèles à disposition afin de faciliter la reproductibilité.