vor 4 Tagen

Chain-of-Agents: End-to-End-Agent-Grundmodellen durch Multi-Agent-Distillation und agenteles RL

Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu, Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan, Xiaowan Li, Tiannan Wang, Pai Liu, King Zhu, He Zhu, Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang, Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu, Ge Zhang, Wangchunshu Zhou

Details der Forschungsarbeit anzeigen

Chain-of-Agents: End-to-End-Agent-Grundmodellen durch Multi-Agent-Distillation und agenteles RL

Abstract

Neuere Fortschritte in großen Sprachmodellen (Large Language Models, LLMs) und Multi-Agent-Systemen haben bemerkenswerte Fähigkeiten bei komplexen Problemlösungsaufgaben wie tiefgreifender Forschung, „Vibe-Coding“ und mathematischer Schlussfolgerung gezeigt. Allerdings basieren die meisten bestehenden Multi-Agent-Systeme auf manueller Prompt- oder Workflow-Engineering mit komplexen Agenten-Frameworks, was sie rechnerisch ineffizient, weniger leistungsfähig macht und daran hindert, von datenzentriertem Lernen zu profitieren. In dieser Arbeit stellen wir Chain-of-Agents (CoA) vor – ein neuartiges Paradigma des LLM-Reasonings, das native, end-to-end-komplexe Problemlösung innerhalb eines einzigen Modells ermöglicht, ähnlich wie bei einem Multi-Agent-System (d. h. mehrfach iteratives Problemlösen mit mehreren Werkzeugen und mehreren Agenten). Bei der Chain-of-Agents-Problemlösung aktiviert das Modell dynamisch unterschiedliche Werkzeug-Agenten und Rollenspiel-Agenten, um die Zusammenarbeit mehrerer Agenten auf eine end-to-end-Weise zu simulieren. Um end-to-end-Fähigkeiten im Chain-of-Agents-Paradigma in LLMs zu aktivieren, führen wir einen Multi-Agenten-Distillation-Framework ein, der State-of-the-Art-Multi-Agent-Systeme in Chain-of-Agents-Verläufe transformiert, um diese für agente-basiertes überwachtes Feinabstimmen zu nutzen. Anschließend verbessern wir die Fähigkeiten der Modelle bei der Chain-of-Agents-Problemlösung weiterhin durch agente-basiertes Verstärkungslernen auf überprüfbarer agenter Aufgaben. Die resultierenden Modelle bezeichnen wir als Agent Foundation Models (AFMs). Unsere empirischen Studien zeigen, dass AFM neue SOTA-Leistungen (State-of-the-Art) auf verschiedenen Benchmarks sowohl im Web-Agent- als auch im Code-Agent-Setting erreicht. Wir stellen die gesamte Forschung, einschließlich der Modellgewichte, des Trainings- und Evaluierungs-Codes sowie der Trainingsdaten, vollständig offenquellen, was eine solide Grundlage für zukünftige Forschung zu Agenten-Modellen und agenter Verstärkungslernverfahren bietet.