HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

ARE : Agrandissement des environnements d'agents et des évaluations

Pierre Andrews Amine Benhalloum Gerard Moreno-Torres Bertran Matteo Bettini Amar Budhiraja et al

ARE : Agrandissement des environnements d'agents et des évaluations

Résumé

Nous introduisons Meta Agents Research Environments (ARE), une plateforme de recherche dédiée à la création évolutives d’environnements, à l’intégration d’applications synthétiques ou réelles, ainsi qu’à l’exécution d’orchestrations agencées. ARE propose des abstractions simples permettant de concevoir des environnements complexes et diversifiés, chacun ayant ses propres règles, outils, contenus et vérificateurs, contribuant ainsi à réduire l’écart entre le développement des modèles et leur déploiement dans le monde réel. Nous proposons également Gaia2, un benchmark conçu dans ARE et spécifiquement destiné à évaluer les capacités générales des agents. Au-delà des tâches de recherche et d’exécution, Gaia2 impose aux agents de gérer l’ambiguïté et le bruit, d’adapter leur comportement à des environnements dynamiques, de collaborer avec d’autres agents, et d’opérer sous contraintes temporelles. Contrairement aux benchmarks précédents, Gaia2 fonctionne de manière asynchrone, mettant en évidence de nouveaux modes d’échec invisibles dans les environnements statiques. Nos expérimentations montrent qu’aucun système ne domine sur l’ensemble du spectre d’intelligence : une meilleure capacité de raisonnement se traduit souvent par une perte d’efficacité, et les courbes d’optimisation selon le budget atteignent un plateau, soulignant la nécessité de nouvelles architectures et de stratégies d’allocation adaptative des ressources informatiques. Peut-être plus important encore, les abstractions proposées par ARE permettent une extension continue de Gaia2 à d’autres environnements, dotant la communauté de la capacité à concevoir rapidement de nouveaux benchmarks adaptés à leurs domaines spécifiques. Dans la seconde moitié de l’histoire de l’IA, les progrès dépendent de plus en plus de la définition de tâches significatives et d’évaluations robustes, afin de faire progresser les capacités de pointe.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ARE : Agrandissement des environnements d'agents et des évaluations | Articles de recherche | HyperAI