Déploiement En Un Clic Du Service API Compatible OpenAI Du Modèle Llama 3.1 405B
Tutoriel et introduction au modèle
Ce didacticiel vise à déployer le modèle Llama-3.1-405B-Instruct-AWQ-INT4 à l'aide du service API compatible OpenAI, y compris des didacticiels textuels et des didacticiels vidéo.
* Tutoriel vidéo :[Tutoriel officiel OpenBayes] Déploiement rapide des modèles super larges Mistral-Large et Llama-3.1-405B
Ce modèle est une version optimisée pour les instructions de taille de paramètre 405B de la série Llama 3.1 de modèles de langage volumineux et utilise la technologie de quantification AWQ pour quantifier les poids du modèle avec une précision INT4, ce qui permet de réduire la taille du modèle et d'améliorer la vitesse d'inférence tout en maintenant les performances. Il s’agit de l’un des plus grands modèles open source actuellement disponibles, prenant en charge l’entrée et la sortie multilingues, améliorant la polyvalence et l’applicabilité du modèle, tout en introduisant une fenêtre de contexte plus longue et en étant capable de gérer des tâches et des conversations plus complexes.
« API compatible OpenAI » fait référence à une interface de programmation d'application (API) qui suit les normes et spécifications d'interface définies par OpenAI, permettant aux développeurs d'utiliser ces API pour interagir avec de grands modèles de langage (tels que les modèles de la série GPT d'OpenAI). Cette compatibilité signifie que les développeurs tiers peuvent intégrer des fonctionnalités similaires dans leurs propres applications en utilisant les mêmes formats de demande et de réponse qu'OpenAI. Par exemple, si un développeur crée un chatbot à l’aide de l’API d’OpenAI, il peut facilement passer à un autre service qui suit également la norme API compatible OpenAI sans apporter de modifications majeures à son code.
Les principales fonctionnalités de l'API compatible OpenAI incluent :
- Requêtes standardisées : les requêtes API suivent le format d'OpenAI, y compris les paramètres et la structure requis.
- Réponses standardisées : les réponses de l’API suivent également le format d’OpenAI, ce qui rend les résultats de traitement et d’analyse cohérents et prévisibles.
- Cohérence des fonctionnalités : fournit des fonctionnalités similaires à OpenAI, telles que la génération de texte, la traduction, le résumé, etc.
- Facile à intégrer : les développeurs peuvent facilement intégrer ces API dans les systèmes existants, en tirant parti d'interfaces et de modèles familiers.
Tutoriel de texte
1. Clonez et démarrez le conteneur dans le coin supérieur droit de l'interface du didacticiel
L'API compatible OpenAI démarrera automatiquement tous les services après un déploiement réussi, sans aucune intervention supplémentaire.

2. Copiez l'adresse API sur une nouvelle page et ouvrez-la
Vous pouvez voir qu'un message 404 par défaut s'affiche.
3. Ajoutez un paramètre supplémentaire « /v1/models » après l'adresse de l'API
Vous pouvez voir que les informations de déploiement du modèle sont affichées.
4. À ce stade, vous pouvez vous connecter au modèle dans n’importe quel SDK compatible OpenAI. Ici, nous prenons OpenWebUI comme exemple - utilisez l'OpenWebUI local pour intégrer cette API
Démarrez un service OpenWebUI localement, démarrez une connexion supplémentaire dans « Connexion externe », renseignez l'API dans « OpenAPI » et ➕ '/v1'. Il n'y a pas de « clé API » définie ici, saisissez-la simplement de manière personnalisée. Cliquez sur Enregistrer dans le coin inférieur droit.
5. Déploiement terminé
Vous pouvez voir que l'interface OpenWebUI possède déjà le modèle Llama-3.1-405b. Vous pouvez simplement entrer un message ci-dessous pour communiquer avec le grand modèle.