Déploiement vLLM + Open WebUI gemma-3-270m-it
1. Introduction au tutoriel
gemma-3-270m-it est un modèle léger de réglage fin des instructions de la série Gemma 3, lancé par Google le 12 mars 2025. Construit sur 270M (270 millions) de paramètres, il se concentre sur une interaction conversationnelle efficace et un déploiement léger. Léger et performant, ce modèle ne nécessite que 1 Go de mémoire + vidéo sur une seule carte pour fonctionner, ce qui le rend adapté aux périphériques et aux scénarios à faibles ressources. Il prend en charge les conversations multi-tours et est spécialement optimisé pour les questions-réponses quotidiennes et les instructions de tâches simples, en se concentrant sur la génération et la compréhension de texte (il ne prend pas en charge la saisie multimodale comme les images). Il prend également en charge les fenêtres contextuelles de 32 000 jetons, ce qui permet de gérer de longues conversations textuelles. Les résultats de l'article sont les suivants :Rapport technique de Gemma 3".
Ce tutoriel utilise des ressources pour une seule carte RTX 4090.
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle
Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page.
Comment utiliser

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}