HyperAIHyperAI

FastVLM : Modèle De Langage Visuel Extrêmement Rapide

1. Introduction au tutoriel

Étoiles GitHub

FastVLM est un modèle de langage visuel (MLV) performant, lancé par l'équipe Apple en septembre 2025. Il permet d'améliorer l'efficacité et les performances du traitement d'images haute résolution. Ce modèle intègre le nouvel encodeur visuel hybride FastViTHD, qui réduit efficacement le nombre de jetons visuels et considérablement le temps d'encodage. Tout en conservant des performances similaires à celles des MLL existants, FastVLM améliore considérablement la vitesse de traitement. Par exemple, dans la configuration LLaVA-1.5, le temps de génération du premier jeton (TTFT) est réduit de 3,2 fois par rapport aux autres modèles. FastVLM affiche de bonnes performances dans divers benchmarks MLL, sa taille réduite et ses besoins en données d'entraînement réduits, démontrant ainsi sa grande efficacité et sa praticabilité dans les tâches de compréhension multimodale. Les résultats de l'article sont les suivants :FastVLM : codage visuel efficace pour les modèles de langage visuel", qui a été inclus dans le CVPR 2025.

Le projet propose deux modèles de modèles :

  • FastVLM-0.5B
  • FastVLM-7B

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}