MULTI-Benchmark: لوحة متصدرين للفهم المتعدد الوسائط مع النص والصور
التاريخ
الحجم
رابط النشر
العلامات
الفئات
تعد مجموعة البيانات هذه بمثابة معيار متعدد الوسائط MULTI الذي أصدرته جامعة شنغهاي جياو تونغ، والذي يهدف إلى تقييم قدرة النماذج متعددة الوسائط الكبيرة على فهم الجداول والصور المعقدة وإجراء استنتاجات نصية طويلة. يوفر الاختبار مدخلات متعددة الوسائط ويتطلب أن تكون الإجابات دقيقة أو مفتوحة، مما يعكس أسلوب الاختبار في الحياة الواقعية. يحتوي MULTI على أكثر من 18000 سؤال، تغطي مجموعة متنوعة من المهام من اشتقاق الصيغة إلى تحليل الصور والتفكير المتقاطع.
كما أنشأ فريق البحث MULTI-Elite، وهي مجموعة فرعية مختارة بعناية من الأسئلة الصعبة تحتوي على 500 مشكلة، وMULTI-Extend، وهي مجموعة بيانات تحتوي على أكثر من 4500 سياق معرفي خارجي. لا يعمل MULTI كمنصة تقييم قوية فحسب، بل يشير أيضًا إلى الطريق لتطوير الذكاء الاصطناعي على مستوى الخبراء.