HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA präsentiert neues Data Flywheel Blueprint für kosteneffizientes Training von kleineren AI-Modellen.

Effiziente AI-Agenten durch Modell-Distillation mit der NVIDIA Data Flywheel Blueprint Mit dem steigenden Einsatz von agenischen KI-Anwendungen in Unternehmen stehen Teams vor der Herausforderung, intelligente Anwendungen zu skalieren, ohne die Inferenzkosten zu explodieren. Große Sprachmodelle (LLMs) bieten zwar starke Leistung, erfordern jedoch immense Rechenkapazitäten, was zu hohen Latenzen und Kosten führen kann. Zudem werden viele Entwicklungsabläufe wie Evaluierung, Datenkuration und Feinabstimmung (fine-tuning) noch weitgehend manuell durchgeführt. Diese Prozesse sind zeitaufwändig, schwer zu automatisieren und skalieren nicht effektiv. Die Komplexität wird dadurch erhöht, dass agenische KI-Systeme zunehmend auf mehreren spezialisierten Modellen für Aufgaben wie Schließen, Werkzeug-Routing und Zusammenfassung basieren. Jedes dieser Komponenten hat unterschiedliche Leistungsmerkmale und Optimierungsanforderungen, was die individuelle Evaluation und Feinabstimmung schwierig macht. Um diese Herausforderungen zu bewältigen, stellt NVIDIA die NVIDIA AI Blueprint für die Erstellung von Datenrädern (Data Flywheels) vor. Diese Referenzarchitektur basiert auf den NVIDIA NeMo Microservices und ermöglicht es Teams, LLMs kontinuierlich in kleinere, kostengünstigere und schnellere Modelle abzuleiten, ohne die Genauigkeit zu beeinträchtigen. Dabei werden echte Produktionsdaten aus den Interaktionen der KI-Agenten genutzt, um strukturierte Experimente automatisch durchzuführen und vielversprechende Kandidaten für die Produktionsnutzung oder tiefergehende manuelle Evaluation zu identifizieren. Im Kern des Data Flywheel Blueprints liegt der Flywheel Orchestrator Service, ein einheitliches Steuerungselement, das die Komplexität der direkten Interaktion mit den NeMo Microservices abstrahiert. Der Orchestrator API koordiniert den Datenrad-Job, indem er eine Suite modularen NeMo Microservices nutzt. Hier ist, wie das Datenrad Schritt für Schritt funktioniert: Schritt 1: Protokollaufnahme Produktions-Prompt/Antwort-Logs vom Lehrer-Basis-NIM (z.B. ein großes Modell mit 70 Milliarden Parametern) werden in einen Elasticsearch-Index aufgenommen. Diese Logs folgen dem OpenAI-konformen Format. Schritt 2: Tagging zur Partitionierung Jedes Log wird mit Metadaten wie workload_id versehen, was das System ermöglicht, die Daten nach Aufgabe zu isolieren und für jeden Agenten-Knoten zu verarbeiten. Schritt 3: Datensatz-Erstellung Der Orchestrator entdoppelt die Logs und transformiert sie in aufgabenorientierte Datensätze für die Training und Evaluation. Diese Datensätze basieren ausschließlich auf den Antworten des ursprünglichen Modells und eliminieren die Notwendigkeit manueller Labeling. Die Datensätze werden im NeMo Datastore gespeichert. Schritt 4: Feinabstimmungs-Jobs Mithilfe des NeMo Customizers werden überwachte Feinabstimmungs-Jobs gestartet, wobei LoRA-Adapter verwendet werden. Jeder Job distilliert das Wissen vom größeren Lehrer-Modell im NeMo Datastore in kleinere, aufgabenorientierte Kandidaten, ohne handgefertigte Datensätze zu benötigen. Schritt 5: Evaluation Der NeMo Evaluator benutzt drei Evaluationsmethoden, um mehrere Kandidat-NIM-Modelle zu vergleichen. Schritt 6: Bewertung und Aggregation Modelle werden mit dem NeMo Evaluator bewertet, einschließlich der Fähigkeit eines LLMs als Richter, und die Ergebnisse werden über die Orchestrator API zurückgemeldet. Schritt 7: Überprüfung und Förderung Entwickler und Administratoren können metrische Daten programmatisch zugreifen, Artefakte herunterladen, nachfolgende Experimente starten oder die besten Kandidaten in die Produktion befördern, um das größere NIM zu ersetzen. Dieser gesamte Zyklus kann geplant oder nach Bedarf ausgelöst werden, um ein automatisiertes und skalierbares System zu schaffen, das kontinuierlich kleinere, schnellere und kosteneffizientere Modelle ermittelt, während die Genauigkeit des größeren Basismodells erhalten bleibt. Anwendung des Data Flywheel Blueprints für agenische Werkzeugaufrufe Um den Wert und die Nutzung des Data Flywheel Blueprints zu demonstrieren, haben wir ihn auf einen hochwirksamen Anwendungsfall angewendet: Agenische Werkzeugaufrufe. Dies ist besonders relevant für produktive KI-Agenten, die über zuverlässige Schnittstellen mit externen Systemen via strukturierter API-Aufrufe verfügen müssen. Wir haben uns auf die NVIDIA AI Blueprint für virtuelle KI-Assistenten konzentriert, die für Kundendienstaufgaben wie Produkthaftfragen, Bestellverfolgung, Rücksendungen und informelle Konversationen entwickelt wurden. Zunächst wurde dieser Assistent von einem großen Llama-3.3-70B-instruct-Modell angetrieben, das Werkzeugaufrufe mit hoher Genauigkeit durchführte. Unser Ziel war es, ein kleineres Modell zu feinabstimmen, um die Genauigkeit des größeren Modells zu erreichen, während die Kosten reduziert werden. In der Produktion würde dies durch echte Kundengespräche kontinuierlich verbessert werden. Um Produktionsverkehr zu simulieren, generierten wir natürlichsprachliche Abfragen synthetisch und erfassten das Werkzeugaufrufverhalten des Agenten in OpenAI-konformen Request-Response-Logs. Diese Logs bildeten die Grundlage sowohl für die Trainings- als auch für die Evaluationsdatensätze. Mithilfe dieser Setup führten wir drei Optimierungsexperimente durch, um die Werkzeugaufrufleistung von kleineren Kandidat-Modellen zu evaluieren: Zero-shot prompting (base-eval): Die Modelle (einschließlich des größeren Basismodells) wurden auf produktionssimiliäre Prompts ohne vorherige Beispiele oder Anpassungen evaluiert. Dies dient als Goldstandard und liefert einen Referenzpunkt, an dem kleinere Modelle gemessen werden. In-context learning (icl-eval): Wenige Beispiele wurden jedem Prompt vorgeschaltet. Diese Beispiele stammten aus echtem Produktionsverkehr und wurden automatisch vom Datenrad basierend auf der ICL-Konfiguration (config.yaml) formatiert. Dieser Ansatz testet, wie sehr sich ein Modell durch Kontextprompts verbessern kann. Überwachte Feinabstimmung mit LoRA (customized-eval): Mithilfe der training_config und lora_config Abschnitte wurden Modelle mit LoRA-Adaptern feinabgestimmt und dann evaluiert, um die Verbesserungen gegenüber base-eval und icl-eval zu messen. Der NeMo Evaluator, der die Fähigkeiten eines LLMs als Richter nutzt, bewertete alle Modellausgaben automatisch, ohne menschliche Labels zu benötigen. Jede Ausführung lieferte strukturierte Metriken wie function_name_and_args_accuracy und tool_calling_correctness, die über die Orchestrator API für die Überprüfung und Vergleichung zur Verfügung gestellt wurden. Dieser gesamte Prozess ist vollständig automatisiert, sodass Entwickler evaluation Reports programmatisch zugreifen können, um die besten Kandidaten zu fördern. Das Ergebnis war ein feinabgestimmtes Llama-3.2-1B-Modell, das 98% der Werkzeugaufrufgenauigkeit des ursprünglichen 70B-Modells erreichte. Dies wurde durch automatisierte, wiederholte Zyklen von Feinabstimmung und Evaluation ermöglicht, die mit zunehmendem Datenverkehr durch das Blueprint fortgesetzt wurden. Das optimierte Llama-3.2-1B-Modell benötigt nur eine GPU, um bedient zu werden, im Gegensatz zu den zwei GPUs, die das ursprüngliche Llama-3.3-70B-Modell erforderte. Dadurch wurde ein wesentlich leichteres Modell geschaffen, das die Genauigkeit beibehält und gleichzeitig erhebliche Verbesserungen in Latenz und Kosten bietet. Konfiguration und Start des Data Flywheel Blueprints Um den Data Flywheel Blueprint in Betrieb zu nehmen, müssen Sie Ihre Umgebung einrichten und die erforderlichen Dienste bereitstellen. Detaillierte Anweisungen finden Sie im README des GitHub-Repositorys, aber im Großen und Ganzen beinhalten die Schritte: Generieren Sie einen persönlichen API-Schlüssel, um NeMo Microservices zu bereitstellen, auf NIM gehostete Modelle zu zugreifen und Modelle lokal herunterzuladen. Bereitstellen Sie die NeMo Microservices-Plattform. Installieren und konfigurieren Sie den Data Flywheel Orchestrator. Sobald die Umgebung bereit ist, konfigurieren Sie Ihre Modelle und Workflows mithilfe einer config.yaml Datei. Diese Datei definiert alles, von den zu bereitstellenden NIM-Modellen bis hin zu Konfigurationen für die Feinabstimmung (z.B. LoRA) und die Evaluation (z.B. ICL, LLM-as-a-Judge). Wichtig: Diese Datei wird beim Start des Systems geladen. Die Einstellungen bleiben während eines Datenrad-Laufs statisch. Um etwas zu ändern, müssen Sie die Dienste anhalten, die YAML-Datei ändern und erneut bereitstellen. Unten finden Sie die wesentlichen Schritte und Konfigurationsblöcke, die Sie überprüfen oder ändern müssen, um Ihren Datenrad-Job zu starten. Modell-Einstellungen Geben Sie das zu bereitstellende und zu evaluierende NIM an. Sie können den Modellnamen, die Kontextlänge, die GPU-Anzahl und andere Optionen wie Anpassung festlegen. Eine Liste unterstützter Modelle, die mit dem NeMo Customizer feinabgestimmt werden können, finden Sie hier. Feinabstimmung Geben Sie die Feinabstimmungsparameter an. Hierzu gehören der Trainings-Typ, der Feinabstimmungs-Typ, die Batch-Größe und die Anzahl der Trainings-Epochen. In-Context-Learning (ICL)-Einstellungen Konfigurieren Sie, wie viele wenige Beispiele verwendet und ihre Kontextfenster definiert werden, wenn die Modelle im ICL-Modus evaluiert werden. Evaluations-Einstellungen Kontrollieren Sie, wie die Daten in Validierungs- und Evaluationssets aufgeteilt werden. eval_size: Anzahl der Beispiele für die Evaluation val_ratio: Verhältnis der für die Validierung verwendeten Daten Starten des Datenrad-Jobs Sobald konfiguriert, starten Sie den Job über einen einfachen API-Aufruf an den Microservice. Eine erfolgreiche Abgabe gibt Werkzeugaufrufgenauigkeitsmetriken zurück, die verwendet werden können, um die Leistung verschiedener Modelle zu vergleichen. Erweiterung des Blueprints für benutzerdefinierte Workflows Der Blueprint ist ein referenzieller Workflow, der leicht angepasst werden kann, um Datenräder für beliebige Downstream-Aufgaben zu bauen. NVIDIA hat bereits erste Adoptionsgeschichten innerhalb seines Partner-Ökosystems gesehen. Weights & Biases bietet eine benutzerdefinierte Version dieses Datenrad-Blueprints im NVIDIA API-Katalog, die mit Tools für Agenten-Verfolgbarkeit und -Überwachung, Modell-Experimentier-Tracking, -Evaluation und -Berichterstattung ergänzt wurde. Iguazio, ein von QuantumBlack, AI by McKinsey erworbenes Machine Learning-Unternehmen, hat den Blueprint angepasst, um sein eigenes benutzerdefiniertes Datenrad mit KI-Orchestrierungs- und -Monitoring-Komponenten zu bauen, das seine KI-Plattform antreibt. Dies ist ebenfalls als Beispiel im NVIDIA API-Katalog verfügbar. Amdocs hat den Blueprint in seine amAIz-Plattform integriert, indem es die LLM-Feinabstimmung und -Evaluation direkt in den CI/CD-Pipeline einbindet. Durch zusätzliche Automatisierung und Verbesserungen kann Amdocs die Genauigkeit und Leistung seiner Agenten kontinuierlich verbessern, während neue Basismodelle auftauchen, und potenzielle Probleme früh im Entwicklungszyklus erkennen. EY integriert den Blueprint, um die EY.ai Agentic Platform mit Echtzeit-Optimierung zu verbessern, was selbstverbessernde, kosteneffiziente Agenten in Bereichen wie Steuern, Risikomanagement und Finanzen ermöglicht. VAST entwickelt eigene Datenräder für benutzerdefinierte Anwendungsfälle, indem es das VAST AI-Betriebssystem mit der NVIDIA Data Flywheel Blueprint integriert. Dies ermöglicht die Echtzeit-Datenkollektion, -Anreicherung und -Rückmeldung über multimodale Quellen, was die schnelle Bereitstellung intelligenter KI-Pipelines in Branchen wie Finanzwesen, Gesundheitswesen und wissenschaftliche Forschung beschleunigt. Entwickeln Sie Ihr eigenes Datenrad für Ihren Anwendungsfall Erkunden Sie die NVIDIA AI Blueprint für Datenräder im NVIDIA API-Katalog und tauchen Sie in Einrichtungsanleitungen, Implementierungsdetails und Tutorials ein. Folgen Sie dem Video-Tutorial für eine praktische Anleitung zum Bau des Datenrads für den agenischen Werkzeugaufruf-Fall, der in diesem Blog behandelt wird. Treten Sie unserem Team am 18. Juni bei einem Live-Webinar bei, in dem unsere Experten erläutern, wie die NVIDIA NIM und NeMo Microservices Datenräder antreiben. Interagieren Sie mit dem NVIDIA Blueprint-Produktteam bei unserer bevorstehenden Live-Stream Q&A-Sitzung am 26. Juni, um den Bau von Datenrädern mit diesem neuesten Blueprint leicht zu meistern. Industrie-Insider bewerten das Event positiv und sehen darin eine bedeutende Fortschritt, insbesondere hinsichtlich der Automatisierung und Skalierbarkeit der KI-Entwicklung. NVIDIA ist bekannt für seine fortschrittlichen Technologien und steht seinen Partnern und Kunden mit umfassendem technischem Support zur Seite, um die Integration und Implementierung des Blueprints zu erleichtern.

Verwandte Links

NVIDIA präsentiert neues Data Flywheel Blueprint für kosteneffizientes Training von kleineren AI-Modellen. | Aktuelle Beiträge | HyperAI