HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الاستدلال الرياضي متعدد الوسائط InfiMM-WebMath-40B

التاريخ

منذ عام واحد

الحجم

73.61 GB

المؤسسة

الأكاديمية الصينية للعلوم

تم إصدار مجموعة بيانات InfiMM-WebMath-40B بواسطة فريق بحثي من ByteDance والأكاديمية الصينية للعلوم في عام 2024. عنوان الورقة البحثية ذات الصلة هو "InfiMM-WebMath-40B: تطوير التدريب المسبق متعدد الوسائط لتحسين التفكير الرياضي".

هذه المجموعة من البيانات عبارة عن مجموعة بيانات كبيرة مفتوحة المصدر ومتعددة الوسائط مصممة خصيصًا لمهام التفكير الرياضي، وتحتوي على 2.4 ألف صفحة ويب، و8.5 ألف عنوان URL للصور ذات الصلة، و40 مليار رمز، وقد تم استخراجها جميعًا وتصفيتها بعناية من قاعدة بيانات CommonCrawl (2019-2023). يوفر إصدار هذه المجموعة من البيانات موردًا قيمًا لمجتمع المصدر المفتوح لتطوير قدرات نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في التفكير الرياضي.

تتضمن عملية إنشاء مجموعة البيانات استخراج النص، وتصفية اللغة، وتصفية المحتوى عالي الجودة، وإزالة التكرار، واستخراج عنوان URL للصور. ومن خلال هذه الخطوات، تم ضمان جودة البيانات وأهميتها. من حيث تدريب النموذج، يتم استخدام مجموعة البيانات InfiMM-WebMath-40B لمزيد من التدريب المسبق لتعزيز قدرة النموذج على اكتساب المعرفة الرياضية في بيئة متعددة الوسائط. بالإضافة إلى ذلك، تم إجراء ضبط دقيق للتعليمات لتحسين أداء النموذج بشكل أكبر.

InfiMM-WebMath-40B.torrent
البذر 1التنزيل 0مكتمل 210إجمالي التنزيلات 264
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مجموعة بيانات الاستدلال الرياضي متعدد الوسائط InfiMM-WebMath-40B | مجموعات البيانات | HyperAI