UserBench-Benchmark
UserBench wurde im Juli 2025 gemeinsam vom KI-Forschungsteam von Salesforce und der University of Illinois at Urbana-Champaign vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „UserBench: Eine interaktive Fitnessumgebung für nutzerzentrierte Agenten".
UserBench ist ein nutzerzentrierter Benchmark zur Bewertung der Leistung von Agenten in mehrstufigen, präferenzgesteuerten Interaktionen. In UserBench geben simulierte Nutzer zunächst vage Aufgabenstellungen und offenbaren im Laufe der Zeit – oft implizit – ihre Präferenzen. Agenten müssen ihre Ziele proaktiv präzisieren, subtile Hinweise interpretieren und mithilfe adaptiver Schlussfolgerungswerkzeuge erfolgreich sein. Basierend auf dem Standard-Gymnasium-Framework bietet UserBench ein modulares, skalierbares Setup mit standardisierten Interaktionsschnittstellen und einem stabilen Backend für die Werkzeugnutzung, was eine rigorose und reproduzierbare Evaluierung ermöglicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.