HyperAIHyperAI
منذ 2 أشهر

MVBench: معيار شامل لفهم الفيديو متعدد الوسائط

Kunchang Li; Yali Wang; Yinan He; Yizhuo Li; Yi Wang; Yi Liu; Zun Wang; Jilan Xu; Guo Chen; Ping Luo; Limin Wang; Yu Qiao
MVBench: معيار شامل لفهم الفيديو متعدد الوسائط
الملخص

مع التطور السريع لـ نماذج اللغة الكبيرة متعددة الأوضاع (MLLMs)، ظهرت مؤخرًا العديد من المقاييس التشخيصية لتقييم قدرات الفهم لهذه النماذج. ومع ذلك، فإن معظم هذه المقاييس تركز بشكل أساسي على فهم المكان في مهام الصور الثابتة، بينما تغفل عن فهم الزمان في مهام الفيديو الديناميكي. لحل هذه المشكلة، نقدم مقاييس شاملة لفهم الفيديو متعدد الأوضاع، والتي نطلق عليها اسم MVBench، وتشمل 20 مهمة فيديو صعبة لا يمكن حلها بفعالية باستخدام إطار زمني واحد فقط. تحديدًا، نقوم أولاً بتقديم طريقة ثابتة إلى ديناميكية جديدة لتعريف هذه المهام ذات الصلة بالزمن. من خلال تحويل مجموعة متنوعة من المهام الثابتة إلى مهام ديناميكية، نمكن من إنشاء نظامي لمهمات الفيديو التي تتطلب مجموعة واسعة من المهارات الزمنية، بدءًا من الإدراك وحتى الإدراك العقلي. ثم، تحت إرشاد تعريف المهمة، نحول تلقائيًا شروحات الفيديو العامة إلى أسئلة وإجابات اختيارية متعددة لتقييم كل مهمة. من جهة أخرى، يسمح هذا النموذج المختلف لنا ببناء MVBench بكفاءة دون الحاجة إلى تدخل بشري كبير. ومن جهة أخرى، فإنه يضمن العدالة في التقييم مع شروحات الفيديو الحقيقية، مما يتجنب التقييم المنحاز لنماذج اللغة الكبيرة (LLMs). بالإضافة إلى ذلك، قمنا بتطوير خط أساس قوي لنماذج الفيديو MLLM وهو VideoChat2 من خلال التدريب المتعدد الأوضاع التدريجي باستخدام بيانات تعليمية متنوعة. تكشف النتائج الواسعة على MVBench أن النماذج MLLM الموجودة غير راضية تمامًا في فهم الزمان، بينما يتفوق VideoChat2 بشكل كبير على هذه النماذج الرائدة بنسبة تزيد عن 15% على MVBench. جميع النماذج والبيانات متاحة على https://github.com/OpenGVLab/Ask-Anything.

MVBench: معيار شامل لفهم الفيديو متعدد الوسائط | أحدث الأوراق البحثية | HyperAI