HyperAIHyperAI

Command Palette

Search for a command to run...

FastVLM : Modèle De Langage Visuel Extrêmement Rapide

Date

il y a 4 mois

Size

501.81 MB

License

Other

Paper URL

2412.13303

1. Introduction au tutoriel

Étoiles GitHub

FastVLM, lancé par Apple en septembre 2025, est un modèle de langage visuel (VLM) haute performance qui améliore l'efficacité et les performances du traitement d'images haute résolution. Ce modèle introduit le nouvel encodeur visuel hybride FastViTHD, réduisant ainsi le nombre de jetons visuels et le temps d'encodage. Tout en conservant des performances similaires aux VLM existants, FastVLM améliore considérablement la vitesse de traitement ; par exemple, avec la configuration LLaVA-1.5, il réduit le temps de génération du premier jeton (TTFT) d'un facteur 3,2 par rapport aux autres modèles. FastVLM obtient d'excellents résultats sur divers benchmarks VLM et, grâce à sa taille réduite et à ses besoins moindres en données d'entraînement, démontre son efficacité et sa praticité pour les tâches de compréhension multimodale. Des articles de recherche associés sont disponibles. FastVLM : codage visuel efficace pour les modèles de langage visuelIl a été inclus dans CVPR 2025.

Le projet propose deux modèles de modèles :

  • FastVLM-0.5B
  • FastVLM-7B

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp