Command Palette
Search for a command to run...
Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques
Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé
Alors que les agents basés sur les modèles linguistiques (LM) gagnent en capacité et accèdent à des outils du monde réel de manière de plus en plus étendue, un besoin croissant se fait sentir en matière de cadres d’évaluation évolutifs pour mesurer leurs capacités agiles. Toutefois, les évaluations traditionnelles centrées sur des benchmarks sont coûteuses à concevoir et nécessitent l’intervention d’humains pour élaborer des tâches valides capables de fournir des insights sur les capacités générales des modèles. Dans ce travail, nous proposons une évaluation fondée sur la théorie de l’information, basée sur le concept d’empowerment — c’est-à-dire l’information mutuelle entre les actions d’un agent et ses états futurs — comme méthode ouverte et sans bornes pour évaluer les agents LM. Nous introduisons EELMA (Estimating Empowerment of Language Model Agents), un algorithme permettant d’approcher l’empowerment effectif à partir d’interactions textuelles multi-tours. Nous validons EELMA sur des jeux linguistiques ainsi que dans des scénarios réalistes à grande échelle impliquant la navigation sur le web. Nous constatons que l’empowerment est fortement corrélé à la performance moyenne sur les tâches, caractérisons l’impact de la complexité environnementale ainsi que de facteurs agiles tels que la chaîne de raisonnement, l’échelle du modèle et la longueur de la mémoire sur l’empowerment estimé, et montrons que les états et actions à haut niveau d’empowerment correspondent souvent à des moments clés pour les capacités générales. Ensemble, ces résultats démontrent que l’empowerment constitue une métrique prometteuse et polyvalente pour évaluer et surveiller les agents LM dans des environnements complexes et ouverts.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.