HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen
Benchmarks
LLM

EVA-Bench 2.0: Daten-Update

ServiceNow hat EVA-Bench Data 2.0 veröffentlicht und damit den Benchmark für die Evaluation sprachgesteuerter KI-Agenten signifikant erweitert. Das Framework testet nun Stimme-für-Stimme Interaktionen in drei unternehmenskritischen Domänen: Fluglinien-Kundenservice, IT-Dienstmanagement und Gesundheitswesen-Human Resources. Insgesamt umfasst die Datenbasis 213 Evaluierungsszenarien mit 121 integrierten Werkzeugen, was einer vierfachen Steigerung im Szenarioumfang gegenüber der Erstausgabe entspricht. Die Datenentwicklung folgt fünf Leitprinzipien. Der Fokus liegt auf echten Telefonszenarien, um reale Sprachmuster abzubilden. Tool-Schemas und Geschäftsregeln orientieren sich an produktiven Unternehmensplattformen, wobei im Gesundheitswesen spezifische US-Vorschriften direkt integriert wurden. Zur Steigerung der Aussagekraft deckt das Dataset Single-Intent-, Multi-Intent- und Adversarial-Calls ab, inklusive Fälle mit nicht erfüllbaren Zielen. Ein besonderer Schwerpunkt liegt auf Authentifizierungsflüssen, die etablierte Schwachstellen in Sprachassistenten adressieren. Jede Szene ist exakt auf einen korrekten Lösungspfad optimiert, um reproduzierbare Metriken zu garantieren. Die Generierung erfolgt über SyGra, ein graphbasiertes Framework, das Nutzerziele, initiale Datenbankzustände und erwartete Endergebnisse gemeinsam erzeugt, um Inkonsistenzen auszuschließen. Ein mehrstufiger Validierungsloop stellt sicher, dass alle Komponenten logisch zusammenhängen. Nachfolgende manuelle Reviews und automatische Tests gegen aktuelle Frontier-Modelle bereinigen die Datenbasis von fehlerhaften Einträgen. Jeder verbleibende Datensatz wurde mindestens von einem der getesteten Modelle erfolgreich gelöst. EVA-Bench 2.0 richtet sich sowohl an Entwickler zur Evaluierung existierender Systeme als auch an Forschungsteams, die eigene Datasets generieren möchten. Parallel zur English-Only-Basis plant ServiceNow die schrittweise Erweiterung um mehrsprachige Support-Pipelines. Dabei werden nicht nur Dialoge übersetzt, sondern auch Metriken und kulturelle Spezifika an die Zielsprache angepasst, um reale internationale Deployments abzubilden. Die gesamte Datenbasis, das Evaluierungsframework und die zugehörige Rangliste stehen ab sofort offen auf öffentlichen Repositories zur Verfügung. Die Integration erfolgt direkt über etablierte Bibliotheken. EVA-Bench Data 2.0 positioniert sich damit als Referenzstandard für die robuste Prüfung von Enterprise-Voice-Agents in komplexen, domänenspezifischen Arbeitsabläufen.

Verwandte Links

EVA-Bench 2.0: Daten-Update | Aktuelle Beiträge | HyperAI