EVA-Bench2.0:3分野121ツール213シナリオ
ServiceNowは音声エージェント評価ベンチマークEVA-Benchのメジャーアップデート版2.0を公開した。既存の単一領域から航空機カスタマーサービス、エンタープライズITサービス管理、医療人事サービスの3分野へ拡大し、評価シナリオを213件、対応ツールを121種類に大幅に拡張した。本バージョンは音声インターフェース固有の複雑なワークフローやドメイン特有の専門用語への適応力を厳密に測定することを目的としている。 開発では音声ファースト設計、実環境の再現性、多様なシナリオバリエーション、認証フローの厳格化、再現性の担保という5つの設計原則を採用した。データ生成にはGraphベースの合成データ生成パイプラインSyGraを採用し、ユーザーの目標、初期データベース状態、期待される最終状態の3要素を一括生成することで整合性を確保した。生成されたデータは先進の言語モデルを用いた自動検証と専門家の手動レビューを重ね、曖昧さや矛盾を排除。すべてのシナリオが少なくとも1つの先進モデルで解決可能であることを確認している。 特に新追加されたITSMとHRSDの領域では、実務の規範を反映し、不正アクセス試行や目標達成不可能なケースなど、音声エージェントの典型的な失敗パターンを網羅している。また、今後多言語対応を計画しており、現地の言語文化や評価指標に最適化したパイプラインの構築を進める方針だ。 EVA-Bench 2.0はMITライセンスの下で完全にオープンソース化され、Hugging FaceおよびGitHub上で公開済みである。開発者はPythonのデータセットライブラリを介してデータを読み込み、ボット間評価や独自検証に利用できる。本アップデートは、音声AIの実用化における評価基準の高度化と、業界横断的な信頼性向上に寄与すると期待されている。
