HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Présente le Data Flywheel Blueprint : Une Solution pour Optimiser les Modèles d'IA et Réduire les Coûts sans Compromettre la Précision

Synthèse : NVIDIA Introduit le Data Flywheel Blueprint pour l’Optimisation des Modèles d’IA La montée en puissance de l’adoption de l’IA agente dans les entreprises pose des défis significatifs en termes de mise à l’échelle des applications intelligentes tout en gérant les coûts d’inference. Les grands modèles linguistiques (LLMs), bien qu’offrant de fortes performances, nécessitent des ressources computacionales importantes, entraînant une latence élevée et des coûts conséquents. De plus, de nombreux workflows de développement, comme l'évaluation, la curation des données et le réajustement des modèles, restent largement manuels et peu évolués, ce qui rend leur mise à l’échelle difficile. Ces processus sont souvent chronophages et complexes à automatiser. Pour répondre à ces défis, NVIDIA a introduit le NVIDIA AI Blueprint for Building Data Flywheels, une architecture de référence basée sur les microservices NVIDIA NeMo. Ce blueprint permet aux équipes de distiller de manière continue les LLMs en modèles plus petits, plus rapides et moins coûteux tout en préservant leur précision, en utilisant des données de production provenant des interactions des agents IA. Il automatiser les processus d’expérimentation, de réduction et de ré entraînement, facilitant ainsi la découverte de modèles plus performants et cost-efficaces pour la production. Comment ça fonctionne ? Ingestion des journaux : Les journaux de sollicitation/réponse de production du modèle source (par exemple, un grand modèle de 70 milliards de paramètres) sont ingérés dans un index Elasticsearch. Ces journaux sont au format compatible avec OpenAI. Marquage pour la partition : Chaque journal est marqué avec des métadonnées telles que workload_id, ce qui permet au système de traiter les données par tâche pour chaque nœud de l'agent. Création de jeux de données : Le service Orchestrator déséquipe les doublons dans les journaux et les transforme en jeux de données alignés sur les tâches, spécifiquement pour l'entraînement et l'évaluation. Ces jeux de données s’appuient uniquement sur les réponses du modèle initial, éliminant ainsi le besoin de labeling manuel. Tâches de ré entraînement supervisé : En utilisant le NeMo Customizer, des tâches de ré entraînement supervisé sont lancées avec des adaptateurs LoRA. Chaque tâche distille les connaissances du modèle source en modèles candidats plus petits et spécifiques à la tâche, sans nécessiter des jeux de données fabriqués à la main. Évaluer les runs : Le NeMo Evaluator compare plusieurs modèles candidats de NIM en utilisant trois méthodes d'évaluation : Prompting à vue zéro (zero-shot prompting) : Évaluation des modèles sur des sollicitations de production similaires sans exemples préalables ni customisation. Apprentissage en contexte (in-context learning, ICL) : Ajout de quelques exemples à chaque sollicitation, ces exemples étant tirés automatiquement du trafic de production. Ré entraînement supervisé avec LoRA (supervised fine-tuning with LoRA) : Ré entraînement des modèles avec des adapters LoRA sur des jeux de données curatés spécifiques à la tâche, puis évaluation des gains par rapport aux tests précédents (zero-shot et ICL). Scoring et agrégation : Les sorties des modèles sont évaluées par le NeMo Evaluator, y compris en utilisant des capacités "LLM-as-a-judge". Les résultats sont ensuite rapportés via l’API de l’Orchestrator. Examen et promotion : Les développeurs et administrateurs peuvent accéder programmatiquement aux métriques, télécharger des artefacts, lancer des expériences de suivi ou promouvoir les meilleurs candidats à la production pour remplacer le modèle NIM plus large. Ce loop peut être programmé ou déclenché à la demande, créant un système automatisé et évolué qui identifie continuellement des modèles plus légers et performants sans sacrifier la précision du modèle de base. Application sur un cas d’usage : l’Appel d’Outils Agente Pour illustrer la valeur de cette approche, NVIDIA a appliqué le Data Flywheel Blueprint à un cas d'usage d’impact élevé : l'Appel d’Outils Agente. Cette tâche est particulièrement importante pour les agents de production IA qui doivent interagir de manière fiable avec des systèmes externes via des appels d'API structurés. L’agent d'assistance virtuelle NVIDIA, conçu pour des tâches de support client comme les questions-réponses sur les produits, le suivi des commandes, les retours et les conversations informelles, était initialement alimenté par un grand modèle Llama-3.3-70B, qui effectuait les appels d'outils avec une grande précision. L’objectif était de ré ajuster un modèle plus petit pour atteindre la même précision tout en réduisant les coûts. Pour simuler le trafic de production, des requêtes de langage naturel ont été générées de manière synthétique, capturant ainsi le comportement de l'agent en matière d'appels d'outils dans des journaux de requête-réponse compatibles OpenAI. En utilisant les configurations ICL et LoRA, la team a réalisé trois expériences d'optimisation : - Prompts à vue zéro (zero-shot prompting) : Évaluation des modèles sans exemples préalables. - Apprentissage en contexte (in-context learning) : Amélioration des performances grâce à l'ajout de quelques exemples contextuels. - Ré entraînement supervisé avec LoRA : Ré entraînement des modèles sur des jeux de données task-alignés pour mesurer les gains. Le NeMo Evaluator, utilisant les capacités LLM-as-a-judge, a automatiquement scoré toutes les sorties de modèle. Les métriques structurées, telles que function_name_and_args_accuracy et tool_calling_correctness, ont été enregistrées et rendues accessibles via l’API de l’Orchestrator. Le résultat de ce processus completely automatisé : un modèle ré ajusté Llama-3.2-1B atteint 98% de la précision en appels d'outils du modèle original de 70 milliards de paramètres, offrant d’importantes améliorations en termes de latence et de coût. Le modèle optimisé ne nécessite qu’une seule GPU pour servir, contre deux pour le modèle initial 70B. Configuration et lancement du blueprint Pour mettre en œuvre le Data Flywheel Blueprint, vous devez d’abord configurer votre environnement et déployer les services requis. Les instructions détaillées se trouvent dans le README du dépôt GitHub, mais les étapes générales incluent : - Générer une clé API personnelle : Pour déployer les microservices NeMo, accéder aux modèles hébergés en tant que NIM et télécharger des modèles sur site. - Déployer la plateforme des microservices NeMo. - Installer et configurer l'Orchestrator de Data Flywheel. Une fois l'environnement prêt, configurez vos modèles et flux de travail à l’aide d'un fichier config.yaml. Ce fichier définit tout, des noms des modèles NIM à ré ajuster jusqu'aux configurations de ré entraînement et d'évaluation. Par exemple, les paramètres clés comprennent : - Paramètres du modèle : Nom du modèle, longueur du contexte, nombre de GPU, etc. - Paramètres de ré entraînement : Type d’entraînement, type de ré ajustement, taille de lots, etc. - Paramètres ICL (Apprentissage en contexte) : Nombre d’exemples à vue limitée, fenêtres de contexte. - Paramètres d’évaluation : Taille des ensembles de validation et d'évaluation. Pour lancer le job de flywheel, utilisez une simple API call à microservice. Une soumission réussie renvoie des métriques de précision en appels d'outils, permettant de comparer les performances entre différents modèles. Extension du blueprint à des workflows personnalisés Le blueprint NVIDIA est un workflow de référence que les entreprises peuvent facilement adapter pour construire des boucles de données pour toute tâche descendante. Plusieurs partenaires de NVIDIA l'ont déjà adopté et ont intégré leurs propres outils et améliorations : Weights & Biases : Version personnalisée du blueprint augmentée d'outils pour la traçabilité et l'observabilité des agents, le suivre des expériences de modélisation, l'évaluation et la création de rapports. Iguazio : Adaptation du blueprint pour créer ses propres boucles de données avec des composants d’orchestration et de surveillance d'IA, intégrés dans sa plateforme d’IA. Amdocs : Intégration du blueprint dans sa plateforme amAIz, insérant le ré ajustement et l'évaluation des LLMs directement dans le pipeline CI/CD. EY : Intégration du blueprint pour améliorer sa plateforme agente EY.ai avec une optimisation de modèle en temps réel, facilitant ainsi les agents auto-améliorants et cost-efficaces dans les domaines de la fiscalité, des risques et de la finance. VAST : Conception de ses propres boucles de données pour des cas d’usage personnalisés, notamment l’intégration de VAST AI Operating System, permettant la collecte, l'enrichissement et le feedback de données en temps réel à partir de sources multimodales, ce qui accélère la livraison d IA pipelines intelligents dans des secteurs tels que la finance, la santé et la recherche scientifique. Démarrer votre propre boucle de données Vous pouvez découvrir le NVIDIA AI Blueprint for building data flywheels sur le catalogue API de NVIDIA et plonger dans des guides de montage, des détails d’implémentation et des tutoriels. La vidéo didactique fournie offre une démonstration pratique de la construction de boucles de données pour l'usage d'appels d'outils par agent IA. Les développeurs travaillant sur des workflows d'assistance virtuelle avec le nouveau NVIDIA NeMo Agent toolkit peuvent facilement intégrer ces boucles de données autour de leurs agents et profiter des capacités d'évaluation et de profilage du toolkit. Rejoignez notre équipe lors de nos webinaires à venir : - Le 18 juin : Webinaire live où nos experts expliquent comment les microservices NVIDIA NIM et NeMo puissance les boucles de données. - Le 26 juin : Session Q&A en direct pour interagir avec l’équipe produit de l’AI Blueprint de NVIDIA et explorer la construction de boucles de données en toute simplicité. Évaluation de l'Industrie et Profil de l’Entreprise L'introduction du Data Flywheel Blueprint par NVIDIA marque une avancée significative dans la gestion et l’optimisation des modèles d’IA pour les entreprises. Cette solution offre non seulement un moyen efficace de réduire les coûts et la latence, mais aussi une plateforme robuste pour l'amélioration continue de l’IA agente. Les professionnels de l'industrie reconnaissent la valeur ajoutée d’un système automatisé capable de distiller des modèles massifs en versions plus petites et performantes sans sacrifice sur la précision. NVIDIA, leader reconnu dans le domaine de l'IA et des solutions compute, reste à la pointe de la technologie en proposant des outils innovants et facilement adaptables pour répondre aux besoins croissants des entreprises en matière d'IA agente.

Liens associés