Command Palette
Search for a command to run...
Video-MME-v2: نحو المرحلة التالية في الـ Benchmarks للفهم الشامل للفيديو
Video-MME-v2: نحو المرحلة التالية في الـ Benchmarks للفهم الشامل للفيديو
الملخص
مع التسارع الكبير في مجال فهم الفيديو (video understanding)، أصبحت المعايير المرجعية (benchmarks) الحالية مشبعة بشكل متزايد، مما كشف عن فجوة حرجة بين النتائج المتضخمة في لوحات الصدارة (leaderboards) والقدرات الحقيقية للنماذج في العالم الواقعي. ولمعالجة هذه الفجوة الآخذة في الاتساع، نقدم Video-MME-v2، وهو benchmark شامل صُمم لتقييم متانة وموثوقية (faithfulness) فهم الفيديو بشكل صارم.ولتقييم قدرات النماذج بشكل منهجي، قمنا بتصميم تسلسل هرمي تقدمي ثلاثي المستويات يرفع تدريجياً من تعقيد استيعاب الفيديو؛ بدءاً من تجميع المعلومات المرئية متعددة النقاط (multi-point visual information aggregation)، وصولاً إلى نمذجة الديناميكيات الزمنية (temporal dynamics modeling)، وانتهاءً بالاستدلال متعدد الوسائط (multimodal reasoning) المعقد. علاوة على ذلك، وبخلاف الدقة التقليدية لكل سؤال على حدة، نقترح استراتيجية تقييم غير خطية تعتمد على المجموعات (group-based non-linear evaluation strategy)، والتي تفرض الاتساق عبر الاستعلامات المرتبطة والتماسك في الاستدلال متعدد الخطوات. تهدف هذه الاستراتيجية إلى معاقبة الإجابات المجزأة أو القائمة على التخمين، ولا تمنح الدرجات إلا للإجابات المدعومة باستدلال صحيح.ولضمان جودة البيانات، تم بناء Video-MME-v2 من خلال pipeline للتعليق البشري (human annotation pipeline) يخضع لرقابة صارمة، بمشاركة 12 معلقاً و50 مراجعاً مستقلاً. وبدعم من 3,300 ساعة عمل بشرية وما يصل إلى 5 جولات من ضمان الجودة، يهدف Video-MME-v2 إلى أن يكون أحد أكثر الـ benchmarks موثوقية للفيديو.كشفت التجارب المكثفة عن فجوة كبيرة بين أفضل نموذج حالي، Gemini-1.5-Pro، والخبراء البشريين، كما كشفت عن عنق زجاجة هرمي واضح، حيث تنتقل الأخطاء في تجميع المعلومات المرئية والنمذجة الزمنية لتحد من قدرات الاستدلال عالي المستوى. علاوة على ذلك، وجدنا أن الاستدلال القائم على التفكير (thinking-based reasoning) يعتمد بشكل كبير على الإشارات النصية، حيث يتحسن الأداء مع وجود الترجمة النصية (subtitles) ولكنه يتراجع أحياناً في البيئات المرئية البحتة. ومن خلال كشف هذه المحدوديات، يضع Video-MME-v2 بيئة اختبار جديدة ومتطلبة لتطوير الجيل القادم من نماذج MLLMs الخاصة بالفيديو.