HyperAIHyperAI

Command Palette

Search for a command to run...

Chain-of-Agents: End-to-End-Agent-Grundmodellen durch Multi-Agent-Distillation und agenteles RL

Zusammenfassung

Neuere Fortschritte in großen Sprachmodellen (Large Language Models, LLMs) und Multi-Agent-Systemen haben bemerkenswerte Fähigkeiten bei komplexen Problemlösungsaufgaben wie tiefgreifender Forschung, „Vibe-Coding“ und mathematischer Schlussfolgerung gezeigt. Allerdings basieren die meisten bestehenden Multi-Agent-Systeme auf manueller Prompt- oder Workflow-Engineering mit komplexen Agenten-Frameworks, was sie rechnerisch ineffizient, weniger leistungsfähig macht und daran hindert, von datenzentriertem Lernen zu profitieren. In dieser Arbeit stellen wir Chain-of-Agents (CoA) vor – ein neuartiges Paradigma des LLM-Reasonings, das native, end-to-end-komplexe Problemlösung innerhalb eines einzigen Modells ermöglicht, ähnlich wie bei einem Multi-Agent-System (d. h. mehrfach iteratives Problemlösen mit mehreren Werkzeugen und mehreren Agenten). Bei der Chain-of-Agents-Problemlösung aktiviert das Modell dynamisch unterschiedliche Werkzeug-Agenten und Rollenspiel-Agenten, um die Zusammenarbeit mehrerer Agenten auf eine end-to-end-Weise zu simulieren. Um end-to-end-Fähigkeiten im Chain-of-Agents-Paradigma in LLMs zu aktivieren, führen wir einen Multi-Agenten-Distillation-Framework ein, der State-of-the-Art-Multi-Agent-Systeme in Chain-of-Agents-Verläufe transformiert, um diese für agente-basiertes überwachtes Feinabstimmen zu nutzen. Anschließend verbessern wir die Fähigkeiten der Modelle bei der Chain-of-Agents-Problemlösung weiterhin durch agente-basiertes Verstärkungslernen auf überprüfbarer agenter Aufgaben. Die resultierenden Modelle bezeichnen wir als Agent Foundation Models (AFMs). Unsere empirischen Studien zeigen, dass AFM neue SOTA-Leistungen (State-of-the-Art) auf verschiedenen Benchmarks sowohl im Web-Agent- als auch im Code-Agent-Setting erreicht. Wir stellen die gesamte Forschung, einschließlich der Modellgewichte, des Trainings- und Evaluierungs-Codes sowie der Trainingsdaten, vollständig offenquellen, was eine solide Grundlage für zukünftige Forschung zu Agenten-Modellen und agenter Verstärkungslernverfahren bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp