il y a 4 mois

Résumé

Alors que les agents basés sur les modèles linguistiques (LM) gagnent en capacité et accèdent à des outils du monde réel de manière de plus en plus étendue, un besoin croissant se fait sentir en matière de cadres d’évaluation évolutifs pour mesurer leurs capacités agiles. Toutefois, les évaluations traditionnelles centrées sur des benchmarks sont coûteuses à concevoir et nécessitent l’intervention d’humains pour élaborer des tâches valides capables de fournir des insights sur les capacités générales des modèles. Dans ce travail, nous proposons une évaluation fondée sur la théorie de l’information, basée sur le concept d’empowerment — c’est-à-dire l’information mutuelle entre les actions d’un agent et ses états futurs — comme méthode ouverte et sans bornes pour évaluer les agents LM. Nous introduisons EELMA (Estimating Empowerment of Language Model Agents), un algorithme permettant d’approcher l’empowerment effectif à partir d’interactions textuelles multi-tours. Nous validons EELMA sur des jeux linguistiques ainsi que dans des scénarios réalistes à grande échelle impliquant la navigation sur le web. Nous constatons que l’empowerment est fortement corrélé à la performance moyenne sur les tâches, caractérisons l’impact de la complexité environnementale ainsi que de facteurs agiles tels que la chaîne de raisonnement, l’échelle du modèle et la longueur de la mémoire sur l’empowerment estimé, et montrons que les états et actions à haut niveau d’empowerment correspondent souvent à des moments clés pour les capacités générales. Ensemble, ces résultats démontrent que l’empowerment constitue une métrique prometteuse et polyvalente pour évaluer et surveiller les agents LM dans des environnements complexes et ouverts.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 4 mois

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 4 mois

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Estimation du pouvoir d'agir des agents basés sur les modèles linguistiques

Jinyeop Song Jeff Gore Max Kleiman-Weiner

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters