HyperAIHyperAI

Command Palette

Search for a command to run...

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Résumé

Les agents fondés sur les grands modèles linguistiques (LLM) ont connu des progrès remarquables en matière de raisonnement et d’utilisation d’outils, leur permettant de résoudre des tâches complexes. Toutefois, leur capacité à collaborer de manière proactive avec les utilisateurs, en particulier lorsque les objectifs sont flous, en évolution ou exprimés de façon indirecte, reste largement sous-explorée. Pour combler cette lacune, nous introduisons UserBench, un benchmark centré sur l’utilisateur, conçu pour évaluer les agents dans des interactions multitours pilotées par les préférences. UserBench met en scène des utilisateurs simulés qui partent d’objectifs mal spécifiés et révèlent progressivement leurs préférences, obligeant les agents à clarifier proactivement l’intention et à prendre des décisions fondées sur l’usage d’outils. Notre évaluation des principaux modèles LLM open-source et fermiers révèle un écart important entre la réalisation de tâches et l’alignement avec l’utilisateur. Par exemple, les modèles fournissent des réponses pleinement conformes à toutes les intentions de l’utilisateur uniquement dans 20 % des cas en moyenne, et même les modèles les plus avancés ne parviennent à identifier que moins de 30 % des préférences utilisateur au cours d’interactions actives. Ces résultats mettent en évidence les défis liés à la conception d’agents qui soient non seulement des exécutants de tâches compétents, mais véritablement des partenaires collaboratifs. UserBench offre un environnement interactif permettant de mesurer et d’avancer dans ce domaine crucial.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp