HyperAIHyperAI

Command Palette

Search for a command to run...

BMMR: مجموعة بيانات ثنائية اللغة متعددة الوسائط ومتعددة التخصصات للمنطق

الملخص

في هذا البحث، نقدم BMMR، وهو مجموعة بيانات ثنائية اللغة ومتعددة الوسائط والاختصاصات على نطاق كبير مصممة لمساعدة المجتمع في تطوير وتقييم النماذج المتعددة الوسائط الكبيرة (LMMs). تتكون BMMR من 110 ألف سؤال على مستوى الجامعة يغطي 300 موضوع محدد من قبل اليونسكو، بأشكال متنوعة تشمل الأسئلة ذات الخيارات المتعددة، أسئلة التعبئة الفارغة، والأسئلة المفتوحة، والتي تم جمعها من وسائل الإعلام المطبوعة والرقمية مثل الكتب والاختبارات والمنافسات. يتم تنظيم جميع البيانات وتصفيةها عبر إطار عمل قابل للتوسع يتضمن إشراف البشر، ويتم ربط كل حالة بمسار استدلال عالي الجودة. تنقسم هذه المجموعة إلى جزأين: BMMR-Eval الذي يحتوي على 20,458 حالة عالية الجودة لتقييم شامل لمعرفة النماذج المتعددة الوسائط الكبيرة والاستدلال في مجالات متعددة باللغتين الصينية والإنجليزية؛ وBMMR-Train الذي يضم 88,991 حالة لدعم البحوث والتطوير المستقبلي، مما يوسع التركيز الحالي على الاستدلال الرياضي إلى مجالات واختصاصات متنوعة. بالإضافة إلى ذلك، نقترح نظام التحقق القائم على العملية والمتعلق بالاختصاصات المختلفة (BMMR-Verifier) لتقييم دقيق ومفصل للمسارات الاستدلالية. أظهرت التجارب الشاملة التي أجريت على 24 نموذجاً أن (i) حتى أفضل النماذج الحالية (مثل o3 وGemini-2.5-Pro) لا تزال لديها هامش كبير للتحسين في BMMR-Eval؛ (ii) النماذج الاستدلالية تعاني من تحيز الاختصاص وتتفوق على النماذج المتعددة الوسائط الكبيرة فقط في مواضيع معينة؛ (iii) النماذج المفتوحة المصدر لا تزال تتأخر عن نظيراتها الخاصة؛ و(iv) التعديل الدقيق باستخدام BMMR-Train يضيق هذا الفارق. بالإضافة إلى ذلك، قمنا بإجراء تحليلات سلسلة الاستدلال باستخدام BMMR-Verifier وغيرها من الدراسات العميقة، كاشفين عن التحديات التي تواجهها النماذج المتعددة الوسائط الكبيرة حالياً في الاستدلال متعدد الاختصاصات. سنقوم بإطلاق البيانات، ونأمل أن يقدم عملنا رؤى وإسهامات للمجتمع العلمي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp