Command Palette
Search for a command to run...
FastVLM : Modèle De Langage Visuel Extrêmement Rapide
Date
Size
501.81 MB
License
Other
GitHub
Paper URL
1. Introduction au tutoriel

FastVLM, lancé par Apple en septembre 2025, est un modèle de langage visuel (VLM) haute performance qui améliore l'efficacité et les performances du traitement d'images haute résolution. Ce modèle introduit le nouvel encodeur visuel hybride FastViTHD, réduisant ainsi le nombre de jetons visuels et le temps d'encodage. Tout en conservant des performances similaires aux VLM existants, FastVLM améliore considérablement la vitesse de traitement ; par exemple, avec la configuration LLaVA-1.5, il réduit le temps de génération du premier jeton (TTFT) d'un facteur 3,2 par rapport aux autres modèles. FastVLM obtient d'excellents résultats sur divers benchmarks VLM et, grâce à sa taille réduite et à ses besoins moindres en données d'entraînement, démontre son efficacité et sa praticité pour les tâches de compréhension multimodale. Des articles de recherche associés sont disponibles. FastVLM : codage visuel efficace pour les modèles de langage visuelIl a été inclus dans CVPR 2025.
Le projet propose deux modèles de modèles :
- FastVLM-0.5B
- FastVLM-7B
Ce tutoriel utilise des ressources pour une seule carte RTX 4090.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@InProceedings{fastvlm2025,
author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2025},
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.