HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'évaluation Du Raisonnement Vocal VERA

Date

il y a 6 jours

Organisation

URL de publication

github.com

URL de l'article

2509.26542

Licence

CC BY 4.0

VERA est un ensemble de données vocales multitâches à grande échelle, publié en 2025 par l'Université Duke en collaboration avec Adobe, conçu pour évaluer les capacités de raisonnement vocal natif. L'article de recherche associé s'intitule « Évaluation vocale des capacités de raisonnement : diagnostic de l’écart de performance induit par la modalitéL'objectif est d'évaluer la capacité de raisonnement de grands modèles dans des conditions vocales naturelles.

Cet ensemble de données contient 2 931 échantillons (épisodes) d’inférence de parole native, répartis en cinq pistes en fonction des caractéristiques de la tâche :

  • Mathématiques (115 entrées) : Problèmes de mathématiques du concours AIME 2025
  • Web (1 107 entrées) : Tâches de navigation Web et de recherche d’informations de BrowseComp
  • Sciences (161 items) : Questions scientifiques de niveau supérieur basées sur GPQA Diamond.
  • Textes longs (548 items) : Tâches de compréhension de textes longs en plusieurs tours issues du MRCR
  • Factuel (1 000 entrées) : Questions et réponses factuelles basées sur SimpleQA.

Tous les échantillons sont présentés sous forme de parole native, l'audio étant synthétisé par Boson Higgs Audio 2 pour garantir une restitution vocale homogène, claire et de haute qualité. Le champ audio_file de chaque échantillon du jeu de données pointe vers le chemin d'accès audio correspondant.

Structures de données :

Les données sont organisées au format JSON et chaque épisode contient un échantillon complet d'inférence vocale. Ses principaux champs sont les suivants :

  • id : Identifiant unique
  • piste : La piste à laquelle elle appartient (raisonnement_mathématique / web / science / contexte_long / factuel)
  • tours de dialogue : plusieurs tours de dialogue, comprenant :
    • rôle (fixé à l'utilisateur)
    • text_content (texte chiffré en Base64)
    • fichier_audio (chemin_audio_correspondant)
    • préfixe_texte et postfixe_texte (peuvent être vides)
  • context_documents : Documents contextuels supplémentaires (le cas échéant)
  • interruptions : journalisation des événements d'interruption
  • metadata.expected_answer : La réponse de référence chiffrée
  • canari : La clé de déchiffrement unique de cet échantillon.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp