TimeSuite: تحسين MLLMs لفهم الفيديو الطويل من خلال التكييف المرتكز

أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) أداءً مبهرًا في فهم مقاطع الفيديو القصيرة. ومع ذلك، لا يزال فهم مقاطع الفيديو الطويلة يمثل تحديًا كبيرًا أمام نماذج MLLMs. تقدم هذه الورقة TimeSuite، وهي مجموعة من التصاميم الجديدة لتعديل النماذج الحالية لفهم مقاطع الفيديو القصيرة لتمكينها من فهم مقاطع الفيديو الطويلة، وتشمل إطارًا بسيطًا ولكن فعّالًا لمعالجة التسلسلات الطويلة للفيديو، وقاعدة بيانات عالية الجودة للفيديو لضبط النماذج المبنية على الترسيخ (grounded tuning)، بالإضافة إلى مهمة تنظيم تعليمية مصممة بعناية لدمج إشراف الترسيخ بشكل صريح في التنسيق التقليدي للأسئلة والأجوبة (QA). وبشكل خاص، وباستناد إلى VideoChat، نقترح نموذجنا الجديد لفهم مقاطع الفيديو الطويلة، المسمى VideoChat-T، من خلال تطبيق تبديل للرموز (token shuffling) لتقليل حجم الرموز الناتجة عن مقاطع الفيديو الطويلة، وإدخال ترميز الموضع الزمني التكيفي (TAPE) لتعزيز الوعي الزمني في تمثيلات الصور. وفي الوقت نفسه، نقدم TimePro، وهي مجموعة بيانات شاملة موجهة نحو الترسيخ، تتكون من 9 مهام و349 ألف ملاحظة موثوقة مترسخة. وبشكل ملحوظ، قمنا بتصميم نوع جديد من مهام التدريب بالتعليمات، يُسمى "الوصف المترسخ زمنيًا" (Temporal Grounded Caption)، لتقديم وصف دقيق لمقاطع الفيديو مع توقع التوقيتات المرتبطة بكل جزء. وسيساعد هذا التوقع الزمني الصريح النموذج على التركيز بشكل صحيح على المحتوى البصري عند إنتاج الوصف، وبالتالي تقليل خطر التصوّر الخاطئ (hallucination) الناتج عن النماذج اللغوية الكبيرة. تُظهر النتائج التجريبية أن TimeSuite تقدم حلًا ناجحًا لتعزيز قدرة نماذج MLLMs القصيرة على فهم مقاطع الفيديو الطويلة، حيث حققت تحسنًا بنسبة 5.6% و6.8% على معايير Egoschema وVideoMME على التوالي. علاوةً على ذلك، تُظهر VideoChat-T قدرات قوية في الترسيخ الزمني بدون تدريب مسبق (zero-shot)، وتتفوّق بشكل ملحوظ على النماذج الحالية الأفضل في مجالها. وبعد التدريب المخصص (fine-tuning)، تُظهر الأداء مماثلًا للنماذج الخبيرة التقليدية المدربة بأسلوب مراقب.