HyperAIHyperAI

Command Palette

Search for a command to run...

NVILA : Modèles linguistiques visuels pour les frontières efficaces

Résumé

Les modèles linguistiques visuels (VLM) ont connu des progrès significatifs en précision au cours des dernières années. Toutefois, leur efficacité a reçu bien moins d’attention. Ce papier présente NVILA, une famille de modèles VLM open-source conçus pour optimiser à la fois l’efficacité et la précision. Inspirés de VILA, nous améliorons l’architecture du modèle en augmentant d’abord les résolutions spatiale et temporelle, puis en compressant les jetons visuels. Cette approche « échelle puis compression » permet à NVILA de traiter efficacement des images haute résolution et des vidéos longues. Nous menons également une étude systématique visant à améliorer l’efficacité de NVILA tout au long de son cycle de vie, de l’entraînement et de la fine-tuning à son déploiement. NVILA atteint ou dépasse la précision de nombreux modèles VLM open-source et propriétaires de pointe sur une large gamme de benchmarks d’images et de vidéos. Parallèlement, il réduit les coûts d’entraînement de 4,5 fois, l’utilisation de mémoire lors de la fine-tuning de 3,4 fois, la latence de pré-remplissage de 1,6 à 2,2 fois, et la latence de décodage de 1,2 à 2,8 fois. Nos codes et modèles seront bientôt mis à disposition afin de favoriser la reproductibilité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
NVILA : Modèles linguistiques visuels pour les frontières efficaces | Articles | HyperAI