Chain-of-Agents: End-to-End-Agent-Grundmodellen durch Multi-Agent-Distillation und agenteles RL

Neuere Fortschritte in großen Sprachmodellen (Large Language Models, LLMs) und Multi-Agent-Systemen haben bemerkenswerte Fähigkeiten bei komplexen Problemlösungsaufgaben wie tiefgreifender Forschung, „Vibe-Coding“ und mathematischer Schlussfolgerung gezeigt. Allerdings basieren die meisten bestehenden Multi-Agent-Systeme auf manueller Prompt- oder Workflow-Engineering mit komplexen Agenten-Frameworks, was sie rechnerisch ineffizient, weniger leistungsfähig macht und daran hindert, von datenzentriertem Lernen zu profitieren. In dieser Arbeit stellen wir Chain-of-Agents (CoA) vor – ein neuartiges Paradigma des LLM-Reasonings, das native, end-to-end-komplexe Problemlösung innerhalb eines einzigen Modells ermöglicht, ähnlich wie bei einem Multi-Agent-System (d. h. mehrfach iteratives Problemlösen mit mehreren Werkzeugen und mehreren Agenten). Bei der Chain-of-Agents-Problemlösung aktiviert das Modell dynamisch unterschiedliche Werkzeug-Agenten und Rollenspiel-Agenten, um die Zusammenarbeit mehrerer Agenten auf eine end-to-end-Weise zu simulieren. Um end-to-end-Fähigkeiten im Chain-of-Agents-Paradigma in LLMs zu aktivieren, führen wir einen Multi-Agenten-Distillation-Framework ein, der State-of-the-Art-Multi-Agent-Systeme in Chain-of-Agents-Verläufe transformiert, um diese für agente-basiertes überwachtes Feinabstimmen zu nutzen. Anschließend verbessern wir die Fähigkeiten der Modelle bei der Chain-of-Agents-Problemlösung weiterhin durch agente-basiertes Verstärkungslernen auf überprüfbarer agenter Aufgaben. Die resultierenden Modelle bezeichnen wir als Agent Foundation Models (AFMs). Unsere empirischen Studien zeigen, dass AFM neue SOTA-Leistungen (State-of-the-Art) auf verschiedenen Benchmarks sowohl im Web-Agent- als auch im Code-Agent-Setting erreicht. Wir stellen die gesamte Forschung, einschließlich der Modellgewichte, des Trainings- und Evaluierungs-Codes sowie der Trainingsdaten, vollständig offenquellen, was eine solide Grundlage für zukünftige Forschung zu Agenten-Modellen und agenter Verstärkungslernverfahren bietet.