Ensemble De Données De Référence Pour La Génération De Compréhension De La Parole WildSpeech-Bench
WildSpeech-Bench est le premier benchmark permettant d'évaluer les capacités de conversion parole-parole de SpeechLLM, publié par Tencent en 2025. Les résultats de l'article associé sont «WildSpeech-Bench : analyse comparative des LLM de bout en bout en milieu sauvage", qui vise à mesurer la capacité du modèle à comprendre et à générer une entrée vocale complète vers une sortie vocale (Speech-to-Speech, S2S) dans des scénarios d'interaction vocale réels.
L'ensemble de données contient 1 100 requêtes réparties en cinq catégories principales : requêtes d'information, demandes de solutions, échanges d'opinions, création de texte et expressions paralinguistiques. Chaque catégorie correspond à une intention utilisateur courante. 1 000 de ces requêtes proviennent de scénarios d'interaction vocale généraux (notamment des requêtes d'information, des demandes de solutions, des échanges d'opinions et la création de texte), tandis que 100 autres sont caractérisées par des caractéristiques paralinguistiques telles que les pauses, l'intonation, le bégaiement et la reconnaissance quasi phonétique des mots. Chaque requête est accompagnée d'exemples de discours variés, couvrant un large éventail d'attributs du locuteur (sexe, âge, variantes vocales), de conditions acoustiques et de paramètres d'environnement sonore, afin de simuler de manière plus réaliste la diversité et les défis de l'interaction vocale naturelle.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.