Command Palette
Search for a command to run...
NVILA : Modèles linguistiques visuels pour les frontières efficaces
NVILA : Modèles linguistiques visuels pour les frontières efficaces
Résumé
Les modèles linguistiques visuels (VLM) ont connu des progrès significatifs en précision au cours des dernières années. Toutefois, leur efficacité a reçu bien moins d’attention. Ce papier présente NVILA, une famille de modèles VLM open-source conçus pour optimiser à la fois l’efficacité et la précision. Inspirés de VILA, nous améliorons l’architecture du modèle en augmentant d’abord les résolutions spatiale et temporelle, puis en compressant les jetons visuels. Cette approche « échelle puis compression » permet à NVILA de traiter efficacement des images haute résolution et des vidéos longues. Nous menons également une étude systématique visant à améliorer l’efficacité de NVILA tout au long de son cycle de vie, de l’entraînement et de la fine-tuning à son déploiement. NVILA atteint ou dépasse la précision de nombreux modèles VLM open-source et propriétaires de pointe sur une large gamme de benchmarks d’images et de vidéos. Parallèlement, il réduit les coûts d’entraînement de 4,5 fois, l’utilisation de mémoire lors de la fine-tuning de 3,4 fois, la latence de pré-remplissage de 1,6 à 2,2 fois, et la latence de décodage de 1,2 à 2,8 fois. Nos codes et modèles seront bientôt mis à disposition afin de favoriser la reproductibilité.