التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

تمثّل فهم الفيديو أكثر الحدود تحدّياً في مجال الرؤية الحاسوبية، حيث تتطلّب النماذج القدرة على التفكير في العلاقات المكانية الزمنية المعقدة، والتبعيات طويلة المدى، ودمج الأدلة متعددة الوسائط. وقد أظهرت النماذج متعددة الوسائط الكبيرة للفيديوهات (Video-LMMs) التي ظهرت مؤخراً، والتي تدمج مُشفّرات بصرية مع نماذج لغوية قوية تعتمد على المُفكّرات (decoders)، قدرات ملحوظة في مهام فهم الفيديو. ومع ذلك، يظلّ المرحلة الحاسمة التي تحوّل هذه النماذج من أنظمة إدراكية أساسية إلى محركات تفكير متقدمة، وهي مرحلة ما بعد التدريب (post-training)، مجزأة ومتفرقة في الأدبيات العلمية.تُقدّم هذه المراجعة أول تحليل شامل لأساليب ما بعد التدريب الخاصة بنماذج Video-LMMs، وتغطي ثلاث ركائز أساسية: التدريب الدقيق المُرشّح (SFT) مع نموذج التفكير المتسلسل (chain-of-thought)، والتعلم القائم على المكافآت (RL) من أهداف قابلة للتحقق، وتمديد الحساب أثناء الاختبار (TTS) من خلال تعزيز القدرة الحسابية أثناء الاستدلال. ونقدّم تصنيفًا منظّماً يوضح الأدوار، والروابط المتبادلة، والتكيفات الخاصة بالفيديوهات لهذه الأساليب، مع معالجة التحديات الفريدة مثل تحديد الموقع الزمني، والتثبيت المكاني الزمني، والكفاءة في معالجة الفيديوهات الطويلة، ودمج الأدلة متعددة الوسائط.من خلال تحليل منهجي للأساليب الممثلة، نُلخّص المبادئ التصميمية الأساسية، والرؤى الهامة، وبروتوكولات التقييم، مع تحديد التحديات المفتوحة الحاسمة المتعلقة بتصميم المكافآت، والقابلية للتوسع، وتحسين توازن التكلفة والأداء. كما نُقدّم قائمة مختارة من المعايير الأساسية، والبيانات، والمقاييس لتمكين تقييم دقيق لفعالية ما بعد التدريب. تهدف هذه المراجعة إلى توفير إطار موحّد للباحثين والمتخصصين لدفع تقدّم قدرات نماذج Video-LMMs. ويتم الحفاظ على مصادر إضافية وتحديثات مستمرة على الرابط التالي:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training