il y a 6 mois

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Résumé

Les agents fondés sur les grands modèles linguistiques (LLM) ont connu des progrès remarquables en matière de raisonnement et d’utilisation d’outils, leur permettant de résoudre des tâches complexes. Toutefois, leur capacité à collaborer de manière proactive avec les utilisateurs, en particulier lorsque les objectifs sont flous, en évolution ou exprimés de façon indirecte, reste largement sous-explorée. Pour combler cette lacune, nous introduisons UserBench, un benchmark centré sur l’utilisateur, conçu pour évaluer les agents dans des interactions multitours pilotées par les préférences. UserBench met en scène des utilisateurs simulés qui partent d’objectifs mal spécifiés et révèlent progressivement leurs préférences, obligeant les agents à clarifier proactivement l’intention et à prendre des décisions fondées sur l’usage d’outils. Notre évaluation des principaux modèles LLM open-source et fermiers révèle un écart important entre la réalisation de tâches et l’alignement avec l’utilisateur. Par exemple, les modèles fournissent des réponses pleinement conformes à toutes les intentions de l’utilisateur uniquement dans 20 % des cas en moyenne, et même les modèles les plus avancés ne parviennent à identifier que moins de 30 % des préférences utilisateur au cours d’interactions actives. Ces résultats mettent en évidence les défis liés à la conception d’agents qui soient non seulement des exécutants de tâches compétents, mais véritablement des partenaires collaboratifs. UserBench offre un environnement interactif permettant de mesurer et d’avancer dans ce domaine crucial.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Agent

Benchmarks

Modélisation Des Préférences

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Agent

Benchmarks

Modélisation Des Préférences

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese

Cheng Qian Zuxin Liu Akshara Prabhakar Zhiwei Liu Jianguo Zhang Haolin Chen Heng Ji Weiran Yao Shelby Heinecke Silvio Savarese