HyperAIHyperAI

Command Palette

Search for a command to run...

Abstract

Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem formellen, wissenschaftlichen Stil, wie er in der technologischen Forschung üblich ist:Multi-Agenten-Systeme zeigen bei allgemeinen Reasoning-Aufgaben (Schlussfolgerungsaufgaben) gute Leistungen. Mangelndes Training in spezialisierten Bereichen beeinträchtigt jedoch ihre Genauigkeit. Aktuelle Methoden trainieren ein einheitliches großes Sprachmodell (Large Language Model, LLM) für alle Agenten im System. Dies kann die Leistung einschränken, da den verschiedenen Agenten unterschiedliche Verteilungen zugrunde liegen. Daher sollte das Training von Multi-Agenten-Systemen mit eigenständigen LLMs der nächste Lösungsschritt sein. Dieser Ansatz bringt jedoch Herausforderungen bei der Optimierung mit sich. Beispielsweise operieren Agenten mit unterschiedlichen Frequenzen, Rollouts beinhalten variierende Aufrufe von Sub-Agenten, und Agenten sind oft auf getrennten Servern bereitgestellt, was den End-to-End-Gradientenfluss unterbricht.Um diese Probleme zu adressieren, stellen wir M-GRPO vor, eine hierarchische Erweiterung der Group Relative Policy Optimization, die für vertikale Multi-Agenten-Systeme mit einem Hauptagenten (Planer) und mehreren Sub-Agenten (mehrstufige Werkzeugausführer) konzipiert ist. M-GRPO berechnet gruppenrelative Advantages sowohl für Haupt- als auch für Sub-Agenten und behält dabei das hierarchische Credit Assignment bei. Zudem wird ein Schema zur Trajektorien-Ausrichtung eingeführt, das trotz variabler Sub-Agenten-Aufrufe Batches fester Größe generiert. Wir implementieren eine entkoppelte Trainings-Pipeline, in der Agenten auf separaten Servern laufen und minimale Statistiken über einen gemeinsamen Speicher austauschen. Dies ermöglicht ein skalierbares Training ohne serverübergreifende Backpropagation.In Experimenten auf praxisnahen Benchmarks (z. B. GAIA, XBench-DeepSearch und WebWalkerQA) übertrifft M-GRPO konsistent sowohl Single-Agent-GRPO als auch Multi-Agenten-GRPO mit eingefrorenen Sub-Agenten und demonstriert dabei verbesserte Stabilität und Sample Efficiency. Diese Ergebnisse zeigen, dass die Ausrichtung heterogener Trajektorien und die Entkopplung der Optimierung über spezialisierte Agenten hinweg werkzeuggestützte Reasoning-Aufgaben verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
| Forschungsarbeiten | HyperAI