Command Palette
Search for a command to run...
ARE: Skalierung von Agentenumgebungen und -bewertungen
Pierre Andrews Amine Benhalloum Gerard Moreno-Torres Bertran Matteo Bettini Amar Budhiraja et al

Abstract
Wir stellen Meta Agents Research Environments (ARE) vor, eine Forschungsplattform zur skalierbaren Erstellung von Umgebungen, zur Integration synthetischer oder realer Anwendungen sowie zur Ausführung agenter Orchestrierungen. ARE bietet einfache Abstraktionen, um komplexe und vielfältige Umgebungen zu konstruieren, jeweils mit eigenen Regeln, Werkzeugen, Inhalten und Verifizierern, wodurch die Lücke zwischen Modellentwicklung und realweltlicher Bereitstellung geschlossen wird. Außerdem präsentieren wir Gaia2, einen Benchmark, der innerhalb von ARE entwickelt wurde und darauf ausgelegt ist, allgemeine Agentenfähigkeiten zu messen. Neben Such- und Ausführungsleistungen erfordert Gaia2 von Agenten, Unsicherheiten und Rauschen zu bewältigen, sich dynamischen Umgebungen anzupassen, mit anderen Agenten zu kooperieren und unter zeitlichen Einschränkungen zu agieren. Im Gegensatz zu früheren Benchmarks läuft Gaia2 asynchron und bringt damit neue Fehlermodi ans Licht, die in statischen Umgebungen unsichtbar bleiben. Unsere Experimente zeigen, dass kein System über den gesamten Intelligenzspektrum dominierend ist: stärkere Schlussfolgerungskapazitäten gehen oft mit geringerer Effizienz einher, und Skalierungskurven im Hinblick auf Budget nähern sich einem Plateau, was die Notwendigkeit neuer Architekturen und adaptiver Berechnungsstrategien unterstreicht. Viel wichtiger jedoch ist, dass die ARE-Abstraktionen eine kontinuierliche Erweiterung von Gaia2 auf weitere Umgebungen ermöglichen und der Forschungsgemeinschaft erlauben, schnell neue Benchmarks für ihre jeweiligen Domänen zu erstellen. In der zweiten Hälfte der KI-Entwicklung hängt der Fortschritt zunehmend davon ab, sinnvolle Aufgaben und robuste Evaluierungen zu definieren, um die Grenzen der Fähigkeiten voranzutreiben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.