الملخص

مع التسارع الكبير في مجال فهم الفيديو (video understanding)، أصبحت المعايير المرجعية (benchmarks) الحالية مشبعة بشكل متزايد، مما كشف عن فجوة حرجة بين النتائج المتضخمة في لوحات الصدارة (leaderboards) والقدرات الحقيقية للنماذج في العالم الواقعي. ولمعالجة هذه الفجوة الآخذة في الاتساع، نقدم Video-MME-v2، وهو benchmark شامل صُمم لتقييم متانة وموثوقية (faithfulness) فهم الفيديو بشكل صارم.ولتقييم قدرات النماذج بشكل منهجي، قمنا بتصميم تسلسل هرمي تقدمي ثلاثي المستويات يرفع تدريجياً من تعقيد استيعاب الفيديو؛ بدءاً من تجميع المعلومات المرئية متعددة النقاط (multi-point visual information aggregation)، وصولاً إلى نمذجة الديناميكيات الزمنية (temporal dynamics modeling)، وانتهاءً بالاستدلال متعدد الوسائط (multimodal reasoning) المعقد. علاوة على ذلك، وبخلاف الدقة التقليدية لكل سؤال على حدة، نقترح استراتيجية تقييم غير خطية تعتمد على المجموعات (group-based non-linear evaluation strategy)، والتي تفرض الاتساق عبر الاستعلامات المرتبطة والتماسك في الاستدلال متعدد الخطوات. تهدف هذه الاستراتيجية إلى معاقبة الإجابات المجزأة أو القائمة على التخمين، ولا تمنح الدرجات إلا للإجابات المدعومة باستدلال صحيح.ولضمان جودة البيانات، تم بناء Video-MME-v2 من خلال pipeline للتعليق البشري (human annotation pipeline) يخضع لرقابة صارمة، بمشاركة 12 معلقاً و50 مراجعاً مستقلاً. وبدعم من 3,300 ساعة عمل بشرية وما يصل إلى 5 جولات من ضمان الجودة، يهدف Video-MME-v2 إلى أن يكون أحد أكثر الـ benchmarks موثوقية للفيديو.كشفت التجارب المكثفة عن فجوة كبيرة بين أفضل نموذج حالي، Gemini-1.5-Pro، والخبراء البشريين، كما كشفت عن عنق زجاجة هرمي واضح، حيث تنتقل الأخطاء في تجميع المعلومات المرئية والنمذجة الزمنية لتحد من قدرات الاستدلال عالي المستوى. علاوة على ذلك، وجدنا أن الاستدلال القائم على التفكير (thinking-based reasoning) يعتمد بشكل كبير على الإشارات النصية، حيث يتحسن الأداء مع وجود الترجمة النصية (subtitles) ولكنه يتراجع أحياناً في البيئات المرئية البحتة. ومن خلال كشف هذه المحدوديات، يضع Video-MME-v2 بيئة اختبار جديدة ومتطلبة لتطوير الجيل القادم من نماذج MLLMs الخاصة بالفيديو.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Video-MME-v2: نحو المرحلة التالية في الـ Benchmarks للفهم الشامل للفيديو

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Video-MME-v2: نحو المرحلة التالية في الـ Benchmarks للفهم الشامل للفيديو

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Video-MME-v2: نحو المرحلة التالية في الـ Benchmarks للفهم الشامل للفيديو

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie9 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie

Chaoyou Fu Haozhi Yuan Yuhao Dong Yi-Fan Zhang Yunhang Shen Xiaoxing Hu Xueying Li Jinsen Su Chengwu Long Xiaoyao Xie