HyperAIHyperAI

Command Palette

Search for a command to run...

vor 17 Tagen

Skalierung des Lernens von Agenten durch Erfahrungssynthese

Skalierung des Lernens von Agenten durch Erfahrungssynthese

Abstract

Während die Verstärkungslernverfahren (Reinforcement Learning, RL) große Sprachmodelle (Large Language Models, LLM) durch die Möglichkeit der Selbstverbesserung mittels Interaktion stärken können, bleibt ihre praktische Anwendung aufgrund kostspieliger Simulationsdurchläufe, begrenzter Aufgabenvielfalt, unzuverlässiger Belohnungssignale und komplexer Infrastruktur weiterhin herausfordernd, wodurch die Sammlung skalierbarer Erfahrungsdaten erschwert wird. Um diese Herausforderungen zu bewältigen, stellen wir DreamGym vor – den ersten einheitlichen Rahmen, der gezielt vielfältige, skalierbare Erfahrungen synthetisiert, um effektives Online-RL-Training autonomer Agenten zu ermöglichen. Anstatt auf teure Durchläufe in der realen Umgebung zurückzugreifen, reduziert DreamGym die Umwelt-Dynamik in ein auf Schlussfolgerung basierendes Erfahrungsmodell, das konsistente Zustandsübergänge und Rückmeldesignale durch schrittweise logische Ableitungen generiert und somit skalierbare Sammlung von Agenten-Durchläufen für das RL ermöglicht. Zur Verbesserung der Stabilität und Qualität der Übergänge nutzt DreamGym einen Erfahrungsreplay-Puffer, der mit offline gesammelten realweltlichen Daten initialisiert und kontinuierlich mit neuen Interaktionen aktualisiert wird, um den Agententrainingprozess aktiv zu unterstützen. Um die Wissensakquisition zu optimieren, generiert DreamGym adaptiv neue Aufgaben, die die aktuelle Agentenpolitik herausfordern, wodurch ein effektiveres Online-Curriculum-Lernen ermöglicht wird. Experimente in vielfältigen Umgebungen und mit unterschiedlichen Agentenarchitekturen zeigen, dass DreamGym das RL-Training erheblich verbessert – sowohl in rein synthetischen Szenarien als auch bei Sim-to-Real-Übertragung. Auf nicht-RL-fähigen Aufgaben wie WebArena übertrifft DreamGym alle Baselines um über 30 %. In RL-fähigen, aber kostenintensiven Umgebungen erreicht es die Leistung von GRPO und PPO, wobei lediglich synthetische Interaktionen verwendet werden. Beim Übertragen einer Policy, die ausschließlich auf synthetischen Erfahrungen trainiert wurde, in die reale Umgebung, erzielt DreamGym signifikante zusätzliche Leistungssteigerungen, wobei deutlich weniger reale Interaktionen erforderlich sind. Damit bietet DreamGym eine skalierbare Warm-Start-Strategie für allgemein anwendbares RL.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skalierung des Lernens von Agenten durch Erfahrungssynthese | Forschungsarbeiten | HyperAI