BMMR: مجموعة بيانات ثنائية اللغة متعددة الوسائط ومتعددة التخصصات للمنطق

في هذا البحث، نقدم BMMR، وهو مجموعة بيانات ثنائية اللغة ومتعددة الوسائط والاختصاصات على نطاق كبير مصممة لمساعدة المجتمع في تطوير وتقييم النماذج المتعددة الوسائط الكبيرة (LMMs). تتكون BMMR من 110 ألف سؤال على مستوى الجامعة يغطي 300 موضوع محدد من قبل اليونسكو، بأشكال متنوعة تشمل الأسئلة ذات الخيارات المتعددة، أسئلة التعبئة الفارغة، والأسئلة المفتوحة، والتي تم جمعها من وسائل الإعلام المطبوعة والرقمية مثل الكتب والاختبارات والمنافسات. يتم تنظيم جميع البيانات وتصفيةها عبر إطار عمل قابل للتوسع يتضمن إشراف البشر، ويتم ربط كل حالة بمسار استدلال عالي الجودة. تنقسم هذه المجموعة إلى جزأين: BMMR-Eval الذي يحتوي على 20,458 حالة عالية الجودة لتقييم شامل لمعرفة النماذج المتعددة الوسائط الكبيرة والاستدلال في مجالات متعددة باللغتين الصينية والإنجليزية؛ وBMMR-Train الذي يضم 88,991 حالة لدعم البحوث والتطوير المستقبلي، مما يوسع التركيز الحالي على الاستدلال الرياضي إلى مجالات واختصاصات متنوعة. بالإضافة إلى ذلك، نقترح نظام التحقق القائم على العملية والمتعلق بالاختصاصات المختلفة (BMMR-Verifier) لتقييم دقيق ومفصل للمسارات الاستدلالية. أظهرت التجارب الشاملة التي أجريت على 24 نموذجاً أن (i) حتى أفضل النماذج الحالية (مثل o3 وGemini-2.5-Pro) لا تزال لديها هامش كبير للتحسين في BMMR-Eval؛ (ii) النماذج الاستدلالية تعاني من تحيز الاختصاص وتتفوق على النماذج المتعددة الوسائط الكبيرة فقط في مواضيع معينة؛ (iii) النماذج المفتوحة المصدر لا تزال تتأخر عن نظيراتها الخاصة؛ و(iv) التعديل الدقيق باستخدام BMMR-Train يضيق هذا الفارق. بالإضافة إلى ذلك، قمنا بإجراء تحليلات سلسلة الاستدلال باستخدام BMMR-Verifier وغيرها من الدراسات العميقة، كاشفين عن التحديات التي تواجهها النماذج المتعددة الوسائط الكبيرة حالياً في الاستدلال متعدد الاختصاصات. سنقوم بإطلاق البيانات، ونأمل أن يقدم عملنا رؤى وإسهامات للمجتمع العلمي.