HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques

Résumé

Alors que les agents basés sur les modèles linguistiques (LM) gagnent en capacité et accèdent à des outils du monde réel de manière de plus en plus étendue, un besoin croissant se fait sentir en matière de cadres d’évaluation évolutifs pour mesurer leurs capacités agiles. Toutefois, les évaluations traditionnelles centrées sur des benchmarks sont coûteuses à concevoir et nécessitent l’intervention d’humains pour élaborer des tâches valides capables de fournir des insights sur les capacités générales des modèles. Dans ce travail, nous proposons une évaluation fondée sur la théorie de l’information, basée sur le concept d’empowerment — c’est-à-dire l’information mutuelle entre les actions d’un agent et ses états futurs — comme méthode ouverte et sans bornes pour évaluer les agents LM. Nous introduisons EELMA (Estimating Empowerment of Language Model Agents), un algorithme permettant d’approcher l’empowerment effectif à partir d’interactions textuelles multi-tours. Nous validons EELMA sur des jeux linguistiques ainsi que dans des scénarios réalistes à grande échelle impliquant la navigation sur le web. Nous constatons que l’empowerment est fortement corrélé à la performance moyenne sur les tâches, caractérisons l’impact de la complexité environnementale ainsi que de facteurs agiles tels que la chaîne de raisonnement, l’échelle du modèle et la longueur de la mémoire sur l’empowerment estimé, et montrons que les états et actions à haut niveau d’empowerment correspondent souvent à des moments clés pour les capacités générales. Ensemble, ces résultats démontrent que l’empowerment constitue une métrique prometteuse et polyvalente pour évaluer et surveiller les agents LM dans des environnements complexes et ouverts.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques | Articles de recherche | HyperAI