HyperAI

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

التاريخ

منذ 10 أشهر

الحجم

41.76 MB

المؤسسة

ديب مايند

رابط النشر

huggingface.co

الترخيص

CC BY 4.0

اختبار الزمن، أو ToT باختصار، هو اختبار معياري أطلقه باحثون في Google DeepMind في عام 2024 خصيصًا لتقييم قدرات التفكير الزمني لنماذج اللغة الكبيرة. يتناول هذا الكتاب فهم الزمن والقدرات الحسابية لحاملي شهادة الماجستير في القانون من بعدين مستقلين. نتائج الورقة ذات الصلة هياختبار الزمن: معيار لتقييم برامج الماجستير في القانون في الاستدلال الزمني"

تنقسم مجموعة بيانات ToT إلى ثلاث مجموعات فرعية: تحتوي ToT-semantic على 1850 مثالًا، وتحتوي ToT-arithmetic على 2800 مثالًا، وتحتوي ToT-semantic-large على 46480 مثالًا، والتي يمكنها قياس دلالات ومنطق الفهم الزمني على نطاق أوسع.

تنسيق البيانات

تحتوي مجموعات البيانات ToT-semantic وToT-semantic-large على الحقول التالية:

  • السؤال: يحتوي على نص السؤال.
  • graph_gen_algorithm: اسم خوارزمية إنشاء الرسم البياني.
  • question_type: يتوافق مع أحد أنواع الأسئلة السبعة الموجودة في مجموعة البيانات.
  • sorting_type: يتوافق مع نوع الفرز المطبق على الحقيقة.
  • موجه: يحتوي على نص الموجه الكامل المستخدم لتقييم مهمة LLM.
  • العلامة: الإجابة القياسية على السؤال.

تحتوي مجموعة بيانات حساب ToT على ثلاثة حقول: السؤال، ونوع السؤال، والتسمية.

مصدر البيانات

يتم إنشاء ToT بشكل مصطنع باستخدام المكتبات العامة مثل NetworkX.

  • غاية: تم تصميم ToT في المقام الأول لاستخدامه كمجموعة اختبار.
  • منع:يُحظر تمامًا استخدام ToT كمجموعة تدريب.
ToT.torrent
البذر 2التنزيل 0مكتمل 96إجمالي التنزيلات 115
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB