مجموعة بيانات الاستدلال الرياضي متعدد الوسائط InfiMM-WebMath-40B
التاريخ
الحجم
رابط النشر
العلامات
الفئات
تم إصدار مجموعة بيانات InfiMM-WebMath-40B بواسطة فريق بحثي من ByteDance والأكاديمية الصينية للعلوم في عام 2024. عنوان الورقة البحثية ذات الصلة هو "InfiMM-WebMath-40B: تطوير التدريب المسبق متعدد الوسائط لتحسين التفكير الرياضي".
هذه المجموعة من البيانات عبارة عن مجموعة بيانات كبيرة مفتوحة المصدر ومتعددة الوسائط مصممة خصيصًا لمهام التفكير الرياضي، وتحتوي على 2.4 ألف صفحة ويب، و8.5 ألف عنوان URL للصور ذات الصلة، و40 مليار رمز، وقد تم استخراجها جميعًا وتصفيتها بعناية من قاعدة بيانات CommonCrawl (2019-2023). يوفر إصدار هذه المجموعة من البيانات موردًا قيمًا لمجتمع المصدر المفتوح لتطوير قدرات نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في التفكير الرياضي.
تتضمن عملية إنشاء مجموعة البيانات استخراج النص، وتصفية اللغة، وتصفية المحتوى عالي الجودة، وإزالة التكرار، واستخراج عنوان URL للصور. ومن خلال هذه الخطوات، تم ضمان جودة البيانات وأهميتها. من حيث تدريب النموذج، يتم استخدام مجموعة البيانات InfiMM-WebMath-40B لمزيد من التدريب المسبق لتعزيز قدرة النموذج على اكتساب المعرفة الرياضية في بيئة متعددة الوسائط. بالإضافة إلى ذلك، تم إجراء ضبط دقيق للتعليمات لتحسين أداء النموذج بشكل أكبر.