مجموعة بيانات تقييم الاستدلال الصوتي VERA
التاريخ
رابط النشر
رابط الورقة البحثية
الترخيص
CC BY 4.0
VERA هي مجموعة بيانات كلامية واسعة النطاق ومتعددة المهام، أصدرتها جامعة ديوك عام ٢٠٢٥ بالتعاون مع أدوبي، وهي مصممة لتقييم قدرات التفكير اللغوي الأصلي. عنوان البحث ذي الصلة هو "تقييم الصوت للقدرة على التفكير: تشخيص فجوة الأداء الناجمة عن النمطالهدف هو تقييم قدرة التفكير لدى النماذج الكبيرة في ظل الظروف الصوتية الأصلية.
تحتوي مجموعة البيانات هذه على 2931 عينة استنتاجية للكلام الأصلي (حلقات)، والتي تم تقسيمها إلى خمسة مسارات بناءً على خصائص المهمة:
- الرياضيات (115 مشاركة): مسائل رياضية تنافسية من AIME 2025
- الويب (1,107 إدخالات): مهام تصفح الويب واسترجاع المعلومات من BrowseComp
- العلوم (161 عنصرًا): أسئلة علمية على مستوى الدراسات العليا بناءً على GPQA Diamond.
- السياق الطويل (548 عنصرًا): مهام متعددة الجولات لفهم قراءة النصوص الطويلة من MRCR
- حقائق (1000 إدخال): أسئلة وأجوبة واقعية تعتمد على SimpleQA.
جميع العينات مُقدمة بصيغة الكلام الأصلي، مع توليف صوتي بواسطة برنامج Boson Higgs Audio 2 لضمان أداء كلامي متسق وواضح وعالي الجودة. يشير حقل audio_file لكل عينة في مجموعة البيانات إلى مسار الصوت المقابل.
هياكل البيانات:
البيانات مُنظَّمة بصيغة JSON، وتحتوي كل حلقة على عينة كاملة لاستنتاج الكلام. تشمل مجالاتها الأساسية ما يلي:
- id: معرف فريد
- المسار: المسار الذي ينتمي إليه (التفكير الرياضي / الويب / العلوم / السياق الطويل / الواقعي)
- الأدوار: عدد من جولات الحوار، بما في ذلك:
- الدور (مُثبَّت للمستخدم)
- text_content (نص مشفر باستخدام Base64)
- audio_file (مسار الصوت المقابل)
- prefix_text و postfix_text (يمكن أن يكونا فارغين)
- context_documents: المواد السياقية التكميلية (إن وجدت)
- المقاطعات: تسجيل أحداث المقاطعة
- metadata.expected_answer: إجابة المرجع المشفرة
- canary: مفتاح فك التشفير الفريد لهذه العينة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.