HyperAI

مجموعة بيانات الاستدلال الرياضي متعدد الوسائط InfiMM-WebMath-40B

التاريخ

منذ 7 أشهر

الحجم

73.61 GB

المؤسسة

الأكاديمية الصينية للعلوم

رابط النشر

huggingface.co

تم إصدار مجموعة بيانات InfiMM-WebMath-40B بواسطة فريق بحثي من ByteDance والأكاديمية الصينية للعلوم في عام 2024. عنوان الورقة البحثية ذات الصلة هو "InfiMM-WebMath-40B: تطوير التدريب المسبق متعدد الوسائط لتحسين التفكير الرياضي".

هذه المجموعة من البيانات عبارة عن مجموعة بيانات كبيرة مفتوحة المصدر ومتعددة الوسائط مصممة خصيصًا لمهام التفكير الرياضي، وتحتوي على 2.4 ألف صفحة ويب، و8.5 ألف عنوان URL للصور ذات الصلة، و40 مليار رمز، وقد تم استخراجها جميعًا وتصفيتها بعناية من قاعدة بيانات CommonCrawl (2019-2023). يوفر إصدار هذه المجموعة من البيانات موردًا قيمًا لمجتمع المصدر المفتوح لتطوير قدرات نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في التفكير الرياضي.

تتضمن عملية إنشاء مجموعة البيانات استخراج النص، وتصفية اللغة، وتصفية المحتوى عالي الجودة، وإزالة التكرار، واستخراج عنوان URL للصور. ومن خلال هذه الخطوات، تم ضمان جودة البيانات وأهميتها. من حيث تدريب النموذج، يتم استخدام مجموعة البيانات InfiMM-WebMath-40B لمزيد من التدريب المسبق لتعزيز قدرة النموذج على اكتساب المعرفة الرياضية في بيئة متعددة الوسائط. بالإضافة إلى ذلك، تم إجراء ضبط دقيق للتعليمات لتحسين أداء النموذج بشكل أكبر.

InfiMM-WebMath-40B.torrent
البذر 1التنزيل 1مكتمل 80إجمالي التنزيلات 82
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB