[ملخص مجموعات البيانات الرياضية] يوصي الدكتور العبقري تيرينس تاو بشدة بمجموعات البيانات! يحتوي على الكود، وأسئلة المنافسة الصينية، والإجابة على الأسئلة المباشرة والعكسية، وما إلى ذلك.

في الأسبوع الماضي، نشر عالم الرياضيات الشهير تيرينس تاو قائمة من الموارد تسمى "الذكاء الاصطناعي لموارد الرياضيات" على مدونته الشخصية، بهدف مساعدة أولئك المهتمين بالدخول في مجال رياضيات الذكاء الاصطناعي. تم تجميع هذه القائمة من خلال ندوة "التفكير الرياضي بمساعدة الذكاء الاصطناعي". تم تنظيم الندوة بشكل مشترك من قبل الأكاديميات الوطنية للعلوم والهندسة والطب في الولايات المتحدة، وكان تيرينس تاو هو منسق الندوة.
لم يتم الانتهاء من وثيقة القائمة هذه بعد، ولا يزال تاو والباحثون الآخرون يعملون عليها. قامت HyperAI باختيار بعض مجموعات البيانات لكي يتمكن الجميع من تنزيلها واستخدامها.بالإضافة إلى ذلك، قمنا أيضًا بتلخيص مجموعات بيانات رياضية أخرى لمساعدة الذكاء الاصطناعي في الرياضيات.
1.مجموعة بيانات رياضيات الويب OpenWebMath
وكالة النشر:جامعة تورنتو، جامعة كامبريدج، الخ.
وقت الإصدار:2023
الحجم المقدر:44.21 جيجابايت
عنوان التنزيل:https://go.hyper.ai/erQGZ
يحتوي OpenWebMath على معظم النصوص الرياضية عالية الجودة من الإنترنت. يتم تصفيته واستخراجه من أكثر من 200 مليار ملف HTML على Common Crawl، مما أدى إلى مجموعة من 6.3 مليون مستند تحتوي على إجمالي 14.7 مليار رمز.
2.مسائل الرياضيات على مستوى المدرسة الابتدائية الصينية Ape210K
وكالة النشر:مختبر يوانفوداو للذكاء الاصطناعي، جامعة نورث وسترن
وقت الإصدار:2020
الحجم المقدر:78.43 ميجابايت
عنوان التنزيل:https://go.hyper.ai/SL5to
Ape210K عبارة عن مجموعة بيانات ضخمة وغنية بالقالب لمسائل الكلمات الرياضية تحتوي على 210 ألف مسألة رياضية على مستوى المدارس الابتدائية الصينية، تتضمن كل منها أفضل إجابة والمعادلة المطلوبة للحصول على الإجابة.
3.مجموعة البيانات الرياضية Proof-Pile-2
وكالة النشر:جامعة برينستون
وقت الإصدار:2023
الحجم المقدر:47.57 جيجابايت
عنوان التنزيل:https://go.hyper.ai/TXmiP
Proof-Pile-2 عبارة عن مجموعة بيانات مميزة مكونة من 55 مليار مستند رياضي وعلمي، وهي مزيج من الأوراق العلمية ومحتوى الويب المتعلق بالرياضيات وأكواد الرياضيات، والتي تم تحديثها حتى أبريل 2023.
4.مجموعة بيانات مسائل الرياضيات Orca-Math-200K
وكالة النشر:مايكروسوفت
وقت الإصدار:2024
الحجم المقدر:70.88 ميجابايت
عنوان التنزيل:https://go.hyper.ai/o4pMG
Orca-Math-200K عبارة عن مجموعة بيانات عالية الجودة لمسائل الرياضيات تم إنشاؤها بواسطة Microsoft، وتحتوي على ما يقرب من 200000 سؤال في الرياضيات للمدارس الابتدائية. يتم إنشاء جميع الإجابات في مجموعة البيانات هذه باستخدام Azure GPT4-Turbo.
5.مجموعة بيانات الرياضيات الميزار
وكالة النشر:الميزار
وقت الإصدار:2018
عنوان التنزيل:https://go.hyper.ai/I8pi6
Mizar هي مكتبة صياغة رياضية تعتمد على لغة Mizar، والتي تم إنشاؤها وتعديلها على مدى سنوات عديدة من قبل العديد من المؤلفين والمطورين. حتى الآن، شكل نظام اللغة الميزارية مكتبة رياضية ضخمة، والتي وضعت أساسًا جيدًا للمناقشات المستقبلية حول الرياضيات والقضايا ذات الصلة.
6.مجموعة بيانات حل مسائل الكلمات الرياضية Math23K
وكالة النشر:مختبر تينسنت للذكاء الاصطناعي
وقت الإصدار:2017
الحجم المقدر:8.36 ميجابايت
عنوان التنزيل:https://go.hyper.ai/2YsRR
Math23K هي مجموعة بيانات تم إنشاؤها لحل مسائل الكلمات الرياضية، وتحتوي على 23,162 مسألة صينية تم جمعها من الإنترنت.
7. مجموعة بيانات الاستدلال الرياضي MathVista
وكالة النشر:مايكروسوفت، جامعة واشنطن
وقت الإصدار:2023
الحجم المقدر:1.61 جيجابايت
عنوان التنزيل:https://go.hyper.ai/GHNsf
MathVista هو معيار شامل للتفكير الرياضي في بيئة مرئية. وهو يتألف من ثلاث مجموعات بيانات تم إنشاؤها حديثًا، وهي IQTest وFunctionQA وPaperQA، والتي يمكن استخدامها لتقييم التفكير المنطقي على الرسوم البيانية لاختبار الصور المقطوعة، والتفكير الجبري على الرسوم البيانية للوظائف، والتفكير العلمي على الرسوم البيانية للأوراق الأكاديمية، على التوالي.
8.مجموعة بيانات الاستدلال الرياضي MetaMathQA
وكالة النشر:هواوي، جامعة كامبريدج
وقت الإصدار:2023
الحجم المقدر:84.34 ميجابايت
عنوان التنزيل:https://go.hyper.ai/Vy2iw
MetaMathQA عبارة عن مجموعة بيانات تفكير رياضي عالية الجودة ذات تغطية واسعة تتكون من 395 ألف زوج من الأسئلة والأجوبة الرياضية الأمامية والخلفية التي تم إنشاؤها بواسطة نموذج لغوي كبير.
9.مجموعة بيانات الألغاز الخوارزمية متعددة الوسائط AlgoPuzzleVQA
وكالة النشر:جامعة سنغافورة للتكنولوجيا والتصميم
وقت الإصدار:2024
الحجم المقدر:157.85 ميجابايت
عنوان التنزيل:https://go.hyper.ai/mmzdn
تحتوي مجموعة البيانات على 18 لغزًا مختلفًا تغطي مواضيع رياضية وخوارزمية متنوعة مثل المنطق البولياني، والتركيبات، ونظرية الرسم البياني، والتحسين، والبحث، وما إلى ذلك. تولد مجموعة البيانات ألغازًا من التعليمات البرمجية المكتوبة بواسطة الإنسان بطريقة آلية، مما يضمن أن مجموعة البيانات يمكن أن تتوسع بشكل تعسفي من حيث تعقيد الاستدلال وحجم مجموعة البيانات.
10.مجموعة بيانات مسابقة الرياضيات الصينية TAL-SCQ5K
وكالة النشر:مستقبل جيد
وقت الإصدار:2023
الحجم المقدر:11.4 ميجابايت
عنوان التنزيل:https://go.hyper.ai/ZuYTB
TAL-SCQ5K هي مجموعة من مجموعات بيانات المسابقات الرياضية الصينية عالية الجودة، بما في ذلك 5 آلاف سؤال من أسئلة المسابقات الرياضية الصينية (3 آلاف للتدريب و2 ألف للاختبار)، متوفرة باللغتين الصينية والإنجليزية.
ما ورد أعلاه هو مجموعات البيانات التصنيفية الرياضية العشرة التي جمعتها HyperAI. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك أيضًا لترك رسالة أو إرسال مقال لإخبارنا بذلك!
اقرأ المقال الأصلي للحصول على المزيد من مجموعات البيانات.
حول HyperAI
HyperAI (hyper.ai) هي شركة رائدة في مجال الذكاء الاصطناعي والحوسبة عالية الأداء في الصين.نحن ملتزمون بأن نصبح البنية التحتية في مجال علوم البيانات في الصين وتوفير موارد عامة غنية وعالية الجودة للمطورين المحليين. حتى الآن، لدينا:
* توفير عقد تنزيل محلية سريعة لأكثر من 1200 مجموعة بيانات عامة
* يتضمن أكثر من 300 برنامج تعليمي كلاسيكي وشائع عبر الإنترنت
* تفسير أكثر من 100 حالة بحثية من AI4Science
* دعم البحث عن أكثر من 500 مصطلح ذي صلة
* استضافة أول وثائق كاملة حول Apache TVM باللغة الصينية في الصين
قم بزيارة الموقع الرسمي لبدء رحلة التعلم الخاصة بك: