HyperAIHyperAI

Command Palette

Search for a command to run...

UserBench-Benchmark

Date

vor 2 Monaten

Organization

Paper URL

2507.22034

UserBench wurde im Juli 2025 gemeinsam vom KI-Forschungsteam von Salesforce und der University of Illinois at Urbana-Champaign vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „UserBench: Eine interaktive Fitnessumgebung für nutzerzentrierte Agenten".

UserBench ist ein nutzerzentrierter Benchmark zur Bewertung der Leistung von Agenten in mehrstufigen, präferenzgesteuerten Interaktionen. In UserBench geben simulierte Nutzer zunächst vage Aufgabenstellungen und offenbaren im Laufe der Zeit – oft implizit – ihre Präferenzen. Agenten müssen ihre Ziele proaktiv präzisieren, subtile Hinweise interpretieren und mithilfe adaptiver Schlussfolgerungswerkzeuge erfolgreich sein. Basierend auf dem Standard-Gymnasium-Framework bietet UserBench ein modulares, skalierbares Setup mit standardisierten Interaktionsschnittstellen und einem stabilen Backend für die Werkzeugnutzung, was eine rigorose und reproduzierbare Evaluierung ermöglicht.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp