التاريخ

منذ 2 أعوام

الحجم

41.76 MB

المؤسسة

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

الوسوم

LLM

معالجة اللغة الطبيعية

الاستدلال

المعايير

اختبار الزمن، أو ToT باختصار، هو اختبار معياري أطلقه باحثون في Google DeepMind في عام 2024 خصيصًا لتقييم قدرات التفكير الزمني لنماذج اللغة الكبيرة. يتناول هذا الكتاب فهم الزمن والقدرات الحسابية لحاملي شهادة الماجستير في القانون من بعدين مستقلين. نتائج الورقة ذات الصلة هياختبار الزمن: معيار لتقييم برامج الماجستير في القانون في الاستدلال الزمني" تنقسم مجموعة بيانات ToT إلى ثلاث مجموعات فرعية: تحتوي ToT-semantic على 1850 مثالًا، وتحتوي ToT-arithmetic على 2800 مثالًا، وتحتوي ToT-semantic-large على 46480 مثالًا، والتي يمكنها قياس دلالات ومنطق الفهم الزمني على نطاق أوسع.

تنسيق البيانات

تحتوي مجموعات البيانات ToT-semantic وToT-semantic-large على الحقول التالية:

السؤال: يحتوي على نص السؤال.

graph_gen_algorithm: اسم خوارزمية إنشاء الرسم البياني.

question_type: يتوافق مع أحد أنواع الأسئلة السبعة الموجودة في مجموعة البيانات.

sorting_type: يتوافق مع نوع الفرز المطبق على الحقيقة.

موجه: يحتوي على نص الموجه الكامل المستخدم لتقييم مهمة LLM.

العلامة: الإجابة القياسية على السؤال. تحتوي مجموعة بيانات حساب ToT على ثلاثة حقول: السؤال، ونوع السؤال، والتسمية.

مصدر البيانات

يتم إنشاء ToT بشكل مصطنع باستخدام المكتبات العامة مثل NetworkX.

غاية: تم تصميم ToT في المقام الأول لاستخدامه كمجموعة اختبار.
**منع:**يُحظر تمامًا استخدام ToT كمجموعة تدريب.

ToT.torrent

البذر 1جارٍ التنزيل 0مكتمل 211إجمالي التنزيلات 320

ToT/
- README.md
  1.97 KB
- README.txt
  3.93 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 2 أعوام

الحجم

41.76 MB

المؤسسة

رابط الورقة البحثية

arxiv.org

الترخيص

CC BY 4.0

الوسوم

LLM

معالجة اللغة الطبيعية

الاستدلال

المعايير

تنسيق البيانات

تحتوي مجموعات البيانات ToT-semantic وToT-semantic-large على الحقول التالية:

السؤال: يحتوي على نص السؤال.

graph_gen_algorithm: اسم خوارزمية إنشاء الرسم البياني.

question_type: يتوافق مع أحد أنواع الأسئلة السبعة الموجودة في مجموعة البيانات.

sorting_type: يتوافق مع نوع الفرز المطبق على الحقيقة.

موجه: يحتوي على نص الموجه الكامل المستخدم لتقييم مهمة LLM.

العلامة: الإجابة القياسية على السؤال. تحتوي مجموعة بيانات حساب ToT على ثلاثة حقول: السؤال، ونوع السؤال، والتسمية.

مصدر البيانات

يتم إنشاء ToT بشكل مصطنع باستخدام المكتبات العامة مثل NetworkX.

غاية: تم تصميم ToT في المقام الأول لاستخدامه كمجموعة اختبار.
**منع:**يُحظر تمامًا استخدام ToT كمجموعة تدريب.

ToT.torrent

البذر 1جارٍ التنزيل 0مكتمل 211إجمالي التنزيلات 320

ToT/
- README.md
  1.97 KB
- README.txt
  3.93 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات CHOCLO المعيارية الثقافية لأمريكا اللاتينية

منذ 3 أشهر

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

منذ 3 أشهر

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

منذ 8 أيام

مجموعة بيانات مشكلة الاستدلال Open-RL

منذ 4 أشهر

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

منذ 4 أشهر

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

منذ 8 أيام

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 8 أيام

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 8 أيام

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 8 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

تنسيق البيانات

مصدر البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

تنسيق البيانات

مصدر البيانات

مجموعات البيانات ذات الصلة

مجموعة بيانات CHOCLO المعيارية الثقافية لأمريكا اللاتينية

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لاختبار الزمن لقدرات الاستدلال الزمني للنماذج الكبيرة

تنسيق البيانات

مصدر البيانات

مجموعات البيانات ذات الصلة

مجموعة بيانات CHOCLO المعيارية الثقافية لأمريكا اللاتينية

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات CHOCLO المعيارية الثقافية لأمريكا اللاتينية

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

مجموعة بيانات CHOCLO المعيارية الثقافية لأمريكا اللاتينية

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات مشكلة الاستدلال Open-RL

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro