VERA Voice Reasoning Evaluation Dataset
Datum
Veröffentlichungs-URL
Paper-URL
Lizenz
CC BY 4.0
VERA ist ein umfangreicher, multitaskingfähiger Sprachdatensatz, der 2025 von der Duke University in Zusammenarbeit mit Adobe veröffentlicht wurde und zur Bewertung der Fähigkeiten von Muttersprachlern im Bereich des logischen Denkens dient. Die zugehörige Forschungsarbeit trägt den Titel „Sprachliche Beurteilung des Denkvermögens: Diagnose der modalitätsbedingten LeistungslückeZiel ist es, die Denkfähigkeit großer Modelle unter sprachnaturnahen Bedingungen zu bewerten.
Dieser Datensatz enthält 2.931 Beispiele für die Inferenz von Originalsprache (Episoden), die anhand von Aufgabenmerkmalen in fünf Spuren unterteilt sind:
- Mathematik (115 Einträge): Wettbewerbsaufgaben aus dem AIME 2025
- Web (1.107 Einträge): Web-Browsing- und Informationsabrufaufgaben aus BrowseComp
- Naturwissenschaften (161 Aufgaben): Naturwissenschaftliche Fragen auf Hochschulniveau, basierend auf GPQA Diamond.
- Langtext (548 Aufgaben): Mehrstufige Aufgaben zum Leseverständnis längerer Texte aus dem MRCR
- Faktenwissen (1.000 Einträge): Faktenfragen und Antworten basierend auf SimpleQA.
Alle Sprachbeispiele werden in Originalsprache präsentiert. Die Audiosynthese erfolgte mit Boson Higgs Audio 2, um eine gleichbleibend klare und qualitativ hochwertige Sprachwiedergabe zu gewährleisten. Das Feld „audio_file“ jedes Beispiels im Datensatz verweist auf den entsprechenden Audiopfad.
Datenstrukturen:
Die Daten sind im JSON-Format organisiert, und jede Episode enthält ein vollständiges Sprachanalysebeispiel. Zu den Kernfeldern gehören:
- ID: eindeutiger Bezeichner
- Spur: Die Spur, zu der es gehört (mathematisches_Argumentieren / Web / Wissenschaft / langer_Kontext / Fakten)
- Runden: eine Reihe von Dialogrunden, darunter:
- Rolle (fest dem Benutzer zugewiesen)
- text_content (Base64-verschlüsselter Text)
- audio_file (entsprechender Audiopfad)
- prefix_text und postfix_text (können leer sein)
- Kontextdokumente: Ergänzendes Kontextmaterial (falls vorhanden)
- Unterbrechungen: Protokollierung von Unterbrechungsereignissen
- metadata.expected_answer: Die verschlüsselte Referenzantwort
- canary: Der eindeutige Entschlüsselungsschlüssel für dieses Beispiel.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.