HyperAI

[ملخص مجموعات البيانات الرياضية] يوصي الدكتور العبقري تيرينس تاو بشدة بمجموعات البيانات! يحتوي على الكود، وأسئلة المنافسة الصينية، والإجابة على الأسئلة المباشرة والعكسية، وما إلى ذلك.

منذ عام واحد
معلومة
zhaorui
特色图像

في الأسبوع الماضي، نشر عالم الرياضيات الشهير تيرينس تاو قائمة من الموارد تسمى "الذكاء الاصطناعي لموارد الرياضيات" على مدونته الشخصية، بهدف مساعدة أولئك المهتمين بالدخول في مجال رياضيات الذكاء الاصطناعي. تم تجميع هذه القائمة من خلال ندوة "التفكير الرياضي بمساعدة الذكاء الاصطناعي". تم تنظيم الندوة بشكل مشترك من قبل الأكاديميات الوطنية للعلوم والهندسة والطب في الولايات المتحدة، وكان تيرينس تاو هو منسق الندوة.

لم يتم الانتهاء من وثيقة القائمة هذه بعد، ولا يزال تاو والباحثون الآخرون يعملون عليها. قامت HyperAI باختيار بعض مجموعات البيانات لكي يتمكن الجميع من تنزيلها واستخدامها.بالإضافة إلى ذلك، قمنا أيضًا بتلخيص مجموعات بيانات رياضية أخرى لمساعدة الذكاء الاصطناعي في الرياضيات.

1.مجموعة بيانات رياضيات الويب OpenWebMath

وكالة النشر:جامعة تورنتو، جامعة كامبريدج، الخ.

وقت الإصدار:2023

الحجم المقدر:44.21 جيجابايت

عنوان التنزيل:https://go.hyper.ai/erQGZ

يحتوي OpenWebMath على معظم النصوص الرياضية عالية الجودة من الإنترنت. يتم تصفيته واستخراجه من أكثر من 200 مليار ملف HTML على Common Crawl، مما أدى إلى مجموعة من 6.3 مليون مستند تحتوي على إجمالي 14.7 مليار رمز.

2.مسائل الرياضيات على مستوى المدرسة الابتدائية الصينية Ape210K

وكالة النشر:مختبر يوانفوداو للذكاء الاصطناعي، جامعة نورث وسترن

وقت الإصدار:2020

الحجم المقدر:78.43 ميجابايت

عنوان التنزيل:https://go.hyper.ai/SL5to

Ape210K عبارة عن مجموعة بيانات ضخمة وغنية بالقالب لمسائل الكلمات الرياضية تحتوي على 210 ألف مسألة رياضية على مستوى المدارس الابتدائية الصينية، تتضمن كل منها أفضل إجابة والمعادلة المطلوبة للحصول على الإجابة.

3.مجموعة البيانات الرياضية Proof-Pile-2

وكالة النشر:جامعة برينستون

وقت الإصدار:2023

الحجم المقدر:47.57 جيجابايت

عنوان التنزيل:https://go.hyper.ai/TXmiP

Proof-Pile-2 عبارة عن مجموعة بيانات مميزة مكونة من 55 مليار مستند رياضي وعلمي، وهي مزيج من الأوراق العلمية ومحتوى الويب المتعلق بالرياضيات وأكواد الرياضيات، والتي تم تحديثها حتى أبريل 2023.

4.مجموعة بيانات مسائل الرياضيات Orca-Math-200K

وكالة النشر:مايكروسوفت

وقت الإصدار:2024

الحجم المقدر:70.88 ميجابايت

عنوان التنزيل:https://go.hyper.ai/o4pMG

Orca-Math-200K عبارة عن مجموعة بيانات عالية الجودة لمسائل الرياضيات تم إنشاؤها بواسطة Microsoft، وتحتوي على ما يقرب من 200000 سؤال في الرياضيات للمدارس الابتدائية. يتم إنشاء جميع الإجابات في مجموعة البيانات هذه باستخدام Azure GPT4-Turbo.

5.مجموعة بيانات الرياضيات الميزار

وكالة النشر:الميزار 

وقت الإصدار:2018

عنوان التنزيل:https://go.hyper.ai/I8pi6

Mizar هي مكتبة صياغة رياضية تعتمد على لغة Mizar، والتي تم إنشاؤها وتعديلها على مدى سنوات عديدة من قبل العديد من المؤلفين والمطورين. حتى الآن، شكل نظام اللغة الميزارية مكتبة رياضية ضخمة، والتي وضعت أساسًا جيدًا للمناقشات المستقبلية حول الرياضيات والقضايا ذات الصلة.

6.مجموعة بيانات حل مسائل الكلمات الرياضية Math23K

وكالة النشر:مختبر تينسنت للذكاء الاصطناعي 

وقت الإصدار:2017

الحجم المقدر:8.36 ميجابايت

عنوان التنزيل:https://go.hyper.ai/2YsRR

Math23K هي مجموعة بيانات تم إنشاؤها لحل مسائل الكلمات الرياضية، وتحتوي على 23,162 مسألة صينية تم جمعها من الإنترنت.

7. مجموعة بيانات الاستدلال الرياضي MathVista

وكالة النشر:مايكروسوفت، جامعة واشنطن

وقت الإصدار:2023

الحجم المقدر:1.61 جيجابايت

عنوان التنزيل:https://go.hyper.ai/GHNsf

MathVista هو معيار شامل للتفكير الرياضي في بيئة مرئية. وهو يتألف من ثلاث مجموعات بيانات تم إنشاؤها حديثًا، وهي IQTest وFunctionQA وPaperQA، والتي يمكن استخدامها لتقييم التفكير المنطقي على الرسوم البيانية لاختبار الصور المقطوعة، والتفكير الجبري على الرسوم البيانية للوظائف، والتفكير العلمي على الرسوم البيانية للأوراق الأكاديمية، على التوالي.

8.مجموعة بيانات الاستدلال الرياضي MetaMathQA

وكالة النشر:هواوي، جامعة كامبريدج

وقت الإصدار:2023

الحجم المقدر:84.34 ميجابايت

عنوان التنزيل:https://go.hyper.ai/Vy2iw

MetaMathQA عبارة عن مجموعة بيانات تفكير رياضي عالية الجودة ذات تغطية واسعة تتكون من 395 ألف زوج من الأسئلة والأجوبة الرياضية الأمامية والخلفية التي تم إنشاؤها بواسطة نموذج لغوي كبير.

9.مجموعة بيانات الألغاز الخوارزمية متعددة الوسائط AlgoPuzzleVQA

وكالة النشر:جامعة سنغافورة للتكنولوجيا والتصميم

وقت الإصدار:2024

الحجم المقدر:157.85 ميجابايت

عنوان التنزيل:https://go.hyper.ai/mmzdn

تحتوي مجموعة البيانات على 18 لغزًا مختلفًا تغطي مواضيع رياضية وخوارزمية متنوعة مثل المنطق البولياني، والتركيبات، ونظرية الرسم البياني، والتحسين، والبحث، وما إلى ذلك. تولد مجموعة البيانات ألغازًا من التعليمات البرمجية المكتوبة بواسطة الإنسان بطريقة آلية، مما يضمن أن مجموعة البيانات يمكن أن تتوسع بشكل تعسفي من حيث تعقيد الاستدلال وحجم مجموعة البيانات.

10.مجموعة بيانات مسابقة الرياضيات الصينية TAL-SCQ5K

وكالة النشر:مستقبل جيد

وقت الإصدار:2023

الحجم المقدر:11.4 ميجابايت

عنوان التنزيل:https://go.hyper.ai/ZuYTB

TAL-SCQ5K هي مجموعة من مجموعات بيانات المسابقات الرياضية الصينية عالية الجودة، بما في ذلك 5 آلاف سؤال من أسئلة المسابقات الرياضية الصينية (3 آلاف للتدريب و2 ألف للاختبار)، متوفرة باللغتين الصينية والإنجليزية.

ما ورد أعلاه هو مجموعات البيانات التصنيفية الرياضية العشرة التي جمعتها HyperAI. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!

اقرأ المقال الأصلي للحصول على المزيد من مجموعات البيانات.

حول HyperAI

HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:

* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة

* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت

* تفسير أكثر من 100 حالة بحثية من AI4Science

* دعم البحث عن أكثر من 500 مصطلح ذي صلة

* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين

قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك:

https://hyper.ai