HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

التاريخ

منذ عام واحد

الحجم

41.76 MB

المؤسسة

ديب مايند

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

اختبار الزمن، أو ToT باختصار، هو اختبار معياري أطلقه باحثون في Google DeepMind في عام 2024 خصيصًا لتقييم قدرات التفكير الزمني لنماذج اللغة الكبيرة. يتناول هذا الكتاب فهم الزمن والقدرات الحسابية لحاملي شهادة الماجستير في القانون من بعدين مستقلين. نتائج الورقة ذات الصلة هياختبار الزمن: معيار لتقييم برامج الماجستير في القانون في الاستدلال الزمني"

تنقسم مجموعة بيانات ToT إلى ثلاث مجموعات فرعية: تحتوي ToT-semantic على 1850 مثالًا، وتحتوي ToT-arithmetic على 2800 مثالًا، وتحتوي ToT-semantic-large على 46480 مثالًا، والتي يمكنها قياس دلالات ومنطق الفهم الزمني على نطاق أوسع.

تنسيق البيانات

تحتوي مجموعات البيانات ToT-semantic وToT-semantic-large على الحقول التالية:

  • السؤال: يحتوي على نص السؤال.
  • graph_gen_algorithm: اسم خوارزمية إنشاء الرسم البياني.
  • question_type: يتوافق مع أحد أنواع الأسئلة السبعة الموجودة في مجموعة البيانات.
  • sorting_type: يتوافق مع نوع الفرز المطبق على الحقيقة.
  • موجه: يحتوي على نص الموجه الكامل المستخدم لتقييم مهمة LLM.
  • العلامة: الإجابة القياسية على السؤال.

تحتوي مجموعة بيانات حساب ToT على ثلاثة حقول: السؤال، ونوع السؤال، والتسمية.

مصدر البيانات

يتم إنشاء ToT بشكل مصطنع باستخدام المكتبات العامة مثل NetworkX.

  • غاية: تم تصميم ToT في المقام الأول لاستخدامه كمجموعة اختبار.
  • منع:يُحظر تمامًا استخدام ToT كمجموعة تدريب.
ToT.torrent
البذر 1التنزيل 0مكتمل 194إجمالي التنزيلات 285
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp