HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours
Benchmarks
LLM

EVA-Bench Data 2.0 publié

ServiceNow AI a publié la version 2.0 d'EVA-Bench, un benchmark open-source conçu pour évaluer la précision et la fiabilité des agents vocaux destinés aux entreprises. Cette mise à jour étend considérablement le cadre d'évaluation en couvrant trois secteurs distincts : le service client aérien, la gestion des services informatiques d'entreprise et les ressources humaines dans le domaine de la santé. Au total, le référentiel propose 213 scénarios d'évaluation répartis sur 121 outils, soit une multiplication par quatre de la couverture par rapport à la première version. Chaque scénario a été vérifié pour garantir sa résolubilité, assurant un équilibre entre rigueur technique et équité méthodologique. La conception de ces données repose sur cinq principes structurants. Le benchmark privilégie exclusivement des workflows traités via la voix, en s'appuyant sur des schémas d'outils et des règles métier identiques à ceux rencontrés en production. Pour éviter les biais liés à la répétition, les scénarios combinent des requêtes simples, des conversations multi-objectifs et des appels hostiles visant à contourner les procédures de sécurité. L'authentification et l'existence d'un seul chemin de résolution valide sont systématiquement intégrées afin de garantir la reproductibilité absolue des tests. La génération des données s'appuie sur un pipeline nommé SyGra, qui produit simultanément les objectifs de l'utilisateur, l'état initial de la base de données et l'état final attendu. Cette approche conjointe empêche les incohérences silencieuses qui fausseraient les résultats. Après validation automatique et vérification manuelle, tous les scénarios ont été soumis en mode texte aux modèles GPT-5.4, Gemini 3.1 Pro et Claude Opus 4.6. Les échecs observés ont été analysés pour distinguer les limites des modèles des défauts éventuels du jeu de données, confirmant que chaque cas reste techniquement résolvable. Une évolution majeure de cette version concerne l'intégration progressive du multilingue. Face aux variations de reconnaissance vocale et de fluidité conversationnelle selon les langues, le framework adapte désormais les transcriptions et les mécanismes d'évaluation aux spécificités culturelles et linguistiques cibles. Cette mise à niveau permettra aux équipes techniques de valider les performances de leurs agents avant tout déploiement international. EVA-Bench 2.0 est distribué sous licence MIT. Les jeux de données, le code d'évaluation et les protocoles de contribution sont publiés publiquement sur Hugging Face et GitHub. Les développeurs peuvent charger les scénarios directement via la bibliothèque Hugging Face pour réaliser des tests bout en bout sur leurs propres agents conversationnels. Cette initiative pose une référence standardisée pour mesurer objectivement les capacités des systèmes vocaux d'entreprise face à des environnements professionnels complexes.

Liens associés