HyperAIHyperAI
منذ 6 أيام

التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة
الملخص

تمثّل فهم الفيديو أكثر الحدود تحدّياً في مجال الرؤية الحاسوبية، حيث تتطلّب النماذج القدرة على التفكير في العلاقات المكانية الزمنية المعقدة، والتبعيات طويلة المدى، ودمج الأدلة متعددة الوسائط. وقد أظهرت النماذج متعددة الوسائط الكبيرة للفيديوهات (Video-LMMs) التي ظهرت مؤخراً، والتي تدمج مُشفّرات بصرية مع نماذج لغوية قوية تعتمد على المُفكّرات (decoders)، قدرات ملحوظة في مهام فهم الفيديو. ومع ذلك، يظلّ المرحلة الحاسمة التي تحوّل هذه النماذج من أنظمة إدراكية أساسية إلى محركات تفكير متقدمة، وهي مرحلة ما بعد التدريب (post-training)، مجزأة ومتفرقة في الأدبيات العلمية.تُقدّم هذه المراجعة أول تحليل شامل لأساليب ما بعد التدريب الخاصة بنماذج Video-LMMs، وتغطي ثلاث ركائز أساسية: التدريب الدقيق المُرشّح (SFT) مع نموذج التفكير المتسلسل (chain-of-thought)، والتعلم القائم على المكافآت (RL) من أهداف قابلة للتحقق، وتمديد الحساب أثناء الاختبار (TTS) من خلال تعزيز القدرة الحسابية أثناء الاستدلال. ونقدّم تصنيفًا منظّماً يوضح الأدوار، والروابط المتبادلة، والتكيفات الخاصة بالفيديوهات لهذه الأساليب، مع معالجة التحديات الفريدة مثل تحديد الموقع الزمني، والتثبيت المكاني الزمني، والكفاءة في معالجة الفيديوهات الطويلة، ودمج الأدلة متعددة الوسائط.من خلال تحليل منهجي للأساليب الممثلة، نُلخّص المبادئ التصميمية الأساسية، والرؤى الهامة، وبروتوكولات التقييم، مع تحديد التحديات المفتوحة الحاسمة المتعلقة بتصميم المكافآت، والقابلية للتوسع، وتحسين توازن التكلفة والأداء. كما نُقدّم قائمة مختارة من المعايير الأساسية، والبيانات، والمقاييس لتمكين تقييم دقيق لفعالية ما بعد التدريب. تهدف هذه المراجعة إلى توفير إطار موحّد للباحثين والمتخصصين لدفع تقدّم قدرات نماذج Video-LMMs. ويتم الحفاظ على مصادر إضافية وتحديثات مستمرة على الرابط التالي:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training