HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

Date

منذ 2 أعوام

Size

41.76 MB

Organization

ديب مايند

Paper URL

arxiv.org

License

CC BY 4.0

اختبار الزمن، أو ToT باختصار، هو اختبار معياري أطلقه باحثون في Google DeepMind في عام 2024 خصيصًا لتقييم قدرات التفكير الزمني لنماذج اللغة الكبيرة. يتناول هذا الكتاب فهم الزمن والقدرات الحسابية لحاملي شهادة الماجستير في القانون من بعدين مستقلين. نتائج الورقة ذات الصلة هياختبار الزمن: معيار لتقييم برامج الماجستير في القانون في الاستدلال الزمني"

تنقسم مجموعة بيانات ToT إلى ثلاث مجموعات فرعية: تحتوي ToT-semantic على 1850 مثالًا، وتحتوي ToT-arithmetic على 2800 مثالًا، وتحتوي ToT-semantic-large على 46480 مثالًا، والتي يمكنها قياس دلالات ومنطق الفهم الزمني على نطاق أوسع.

تنسيق البيانات

تحتوي مجموعات البيانات ToT-semantic وToT-semantic-large على الحقول التالية:

  • السؤال: يحتوي على نص السؤال.
  • graph_gen_algorithm: اسم خوارزمية إنشاء الرسم البياني.
  • question_type: يتوافق مع أحد أنواع الأسئلة السبعة الموجودة في مجموعة البيانات.
  • sorting_type: يتوافق مع نوع الفرز المطبق على الحقيقة.
  • موجه: يحتوي على نص الموجه الكامل المستخدم لتقييم مهمة LLM.
  • العلامة: الإجابة القياسية على السؤال.

تحتوي مجموعة بيانات حساب ToT على ثلاثة حقول: السؤال، ونوع السؤال، والتسمية.

مصدر البيانات

يتم إنشاء ToT بشكل مصطنع باستخدام المكتبات العامة مثل NetworkX.

  • غاية: تم تصميم ToT في المقام الأول لاستخدامه كمجموعة اختبار.
  • منع:يُحظر تمامًا استخدام ToT كمجموعة تدريب.
ToT.torrent
Seeding 1Downloading 0Completed 204Total Downloads 309
  • ToT/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • ToT.zip
          41.76 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp