UserBench: Eine interaktive Gym-Umgebung für benutzerzentrierte Agenten

Agenten auf Basis großer Sprachmodelle (Large Language Models, LLMs) haben beachtliche Fortschritte bei der Schlussfolgerung und der Nutzung von Werkzeugen erzielt und sind in der Lage, komplexe Aufgaben zu lösen. Ihre Fähigkeit, proaktiv mit Nutzern zusammenzuarbeiten – insbesondere wenn Ziele unklar, sich verändern oder indirekt formuliert sind – bleibt jedoch bisher unterforscht. Um diese Lücke zu schließen, stellen wir UserBench vor, eine nutzerzentrierte Benchmark, die darauf abzielt, Agenten in mehrschrittigen, präferenzgesteuerten Interaktionen zu evaluieren. UserBench verfügt über simuliertes Nutzerverhalten, bei dem die Ziele zunächst unzureichend spezifiziert sind und sich Präferenzen schrittweise ergeben. Dies erfordert von den Agenten, dass sie aktiv die Absichten klären und fundierte Entscheidungen unter Verwendung von Werkzeugen treffen. Unsere Evaluation führender offener und geschlossener LLMs offenbart eine erhebliche Diskrepanz zwischen der Aufgabenerfüllung und der Übereinstimmung mit den Nutzerpräferenzen. Beispielsweise stimmen die Antworten der Modelle durchschnittlich nur in 20 % der Fälle vollständig mit allen Nutzerabsichten überein, und selbst die fortschrittlichsten Modelle erkennen durch aktive Interaktion weniger als 30 % aller Nutzerpräferenzen auf. Diese Ergebnisse unterstreichen die Herausforderungen bei der Entwicklung von Agenten, die nicht nur leistungsfähige Aufgabenausführende, sondern echte kooperative Partner sind. UserBench bietet eine interaktive Umgebung, um diese entscheidende Fähigkeit zu messen und weiterzuentwickeln.