HyperAIHyperAI
il y a 12 jours

UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur

Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
UserBench : un environnement d'entraînement interactif pour des agents centrés sur l'utilisateur
Résumé

Les agents fondés sur les grands modèles linguistiques (LLM) ont connu des progrès remarquables en matière de raisonnement et d’utilisation d’outils, leur permettant de résoudre des tâches complexes. Toutefois, leur capacité à collaborer de manière proactive avec les utilisateurs, en particulier lorsque les objectifs sont flous, en évolution ou exprimés de façon indirecte, reste largement sous-explorée. Pour combler cette lacune, nous introduisons UserBench, un benchmark centré sur l’utilisateur, conçu pour évaluer les agents dans des interactions multitours pilotées par les préférences. UserBench met en scène des utilisateurs simulés qui partent d’objectifs mal spécifiés et révèlent progressivement leurs préférences, obligeant les agents à clarifier proactivement l’intention et à prendre des décisions fondées sur l’usage d’outils. Notre évaluation des principaux modèles LLM open-source et fermiers révèle un écart important entre la réalisation de tâches et l’alignement avec l’utilisateur. Par exemple, les modèles fournissent des réponses pleinement conformes à toutes les intentions de l’utilisateur uniquement dans 20 % des cas en moyenne, et même les modèles les plus avancés ne parviennent à identifier que moins de 30 % des préférences utilisateur au cours d’interactions actives. Ces résultats mettent en évidence les défis liés à la conception d’agents qui soient non seulement des exécutants de tâches compétents, mais véritablement des partenaires collaboratifs. UserBench offre un environnement interactif permettant de mesurer et d’avancer dans ce domaine crucial.