HyperAI

Hier ist die Übersetzung des Textes ins Deutsche, verfasst in einem formellen, wissenschaftlichen Stil, wie er in der technologischen Forschung üblich ist:Multi-Agenten-Systeme zeigen bei allgemeinen Reasoning-Aufgaben (Schlussfolgerungsaufgaben) gute Leistungen. Mangelndes Training in spezialisierten Bereichen beeinträchtigt jedoch ihre Genauigkeit. Aktuelle Methoden trainieren ein einheitliches großes Sprachmodell (Large Language Model, LLM) für alle Agenten im System. Dies kann die Leistung einschränken, da den verschiedenen Agenten unterschiedliche Verteilungen zugrunde liegen. Daher sollte das Training von Multi-Agenten-Systemen mit eigenständigen LLMs der nächste Lösungsschritt sein. Dieser Ansatz bringt jedoch Herausforderungen bei der Optimierung mit sich. Beispielsweise operieren Agenten mit unterschiedlichen Frequenzen, Rollouts beinhalten variierende Aufrufe von Sub-Agenten, und Agenten sind oft auf getrennten Servern bereitgestellt, was den End-to-End-Gradientenfluss unterbricht.Um diese Probleme zu adressieren, stellen wir M-GRPO vor, eine hierarchische Erweiterung der Group Relative Policy Optimization, die für vertikale Multi-Agenten-Systeme mit einem Hauptagenten (Planer) und mehreren Sub-Agenten (mehrstufige Werkzeugausführer) konzipiert ist. M-GRPO berechnet gruppenrelative Advantages sowohl für Haupt- als auch für Sub-Agenten und behält dabei das hierarchische Credit Assignment bei. Zudem wird ein Schema zur Trajektorien-Ausrichtung eingeführt, das trotz variabler Sub-Agenten-Aufrufe Batches fester Größe generiert. Wir implementieren eine entkoppelte Trainings-Pipeline, in der Agenten auf separaten Servern laufen und minimale Statistiken über einen gemeinsamen Speicher austauschen. Dies ermöglicht ein skalierbares Training ohne serverübergreifende Backpropagation.In Experimenten auf praxisnahen Benchmarks (z. B. GAIA, XBench-DeepSearch und WebWalkerQA) übertrifft M-GRPO konsistent sowohl Single-Agent-GRPO als auch Multi-Agenten-GRPO mit eingefrorenen Sub-Agenten und demonstriert dabei verbesserte Stabilität und Sample Efficiency. Diese Ergebnisse zeigen, dass die Ausrichtung heterogener Trajektorien und die Entkopplung der Optimierung über spezialisierte Agenten hinweg werkzeuggestützte Reasoning-Aufgaben verbessert.

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen7 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen