الملخص

تمثّل فهم الفيديو أكثر الحدود تحدّياً في مجال الرؤية الحاسوبية، حيث تتطلّب النماذج القدرة على التفكير في العلاقات المكانية الزمنية المعقدة، والتبعيات طويلة المدى، ودمج الأدلة متعددة الوسائط. وقد أظهرت النماذج متعددة الوسائط الكبيرة للفيديوهات (Video-LMMs) التي ظهرت مؤخراً، والتي تدمج مُشفّرات بصرية مع نماذج لغوية قوية تعتمد على المُفكّرات (decoders)، قدرات ملحوظة في مهام فهم الفيديو. ومع ذلك، يظلّ المرحلة الحاسمة التي تحوّل هذه النماذج من أنظمة إدراكية أساسية إلى محركات تفكير متقدمة، وهي مرحلة ما بعد التدريب (post-training)، مجزأة ومتفرقة في الأدبيات العلمية.تُقدّم هذه المراجعة أول تحليل شامل لأساليب ما بعد التدريب الخاصة بنماذج Video-LMMs، وتغطي ثلاث ركائز أساسية: التدريب الدقيق المُرشّح (SFT) مع نموذج التفكير المتسلسل (chain-of-thought)، والتعلم القائم على المكافآت (RL) من أهداف قابلة للتحقق، وتمديد الحساب أثناء الاختبار (TTS) من خلال تعزيز القدرة الحسابية أثناء الاستدلال. ونقدّم تصنيفًا منظّماً يوضح الأدوار، والروابط المتبادلة، والتكيفات الخاصة بالفيديوهات لهذه الأساليب، مع معالجة التحديات الفريدة مثل تحديد الموقع الزمني، والتثبيت المكاني الزمني، والكفاءة في معالجة الفيديوهات الطويلة، ودمج الأدلة متعددة الوسائط.من خلال تحليل منهجي للأساليب الممثلة، نُلخّص المبادئ التصميمية الأساسية، والرؤى الهامة، وبروتوكولات التقييم، مع تحديد التحديات المفتوحة الحاسمة المتعلقة بتصميم المكافآت، والقابلية للتوسع، وتحسين توازن التكلفة والأداء. كما نُقدّم قائمة مختارة من المعايير الأساسية، والبيانات، والمقاييس لتمكين تقييم دقيق لفعالية ما بعد التدريب. تهدف هذه المراجعة إلى توفير إطار موحّد للباحثين والمتخصصين لدفع تقدّم قدرات نماذج Video-LMMs. ويتم الحفاظ على مصادر إضافية وتحديثات مستمرة على الرابط التالي:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao17 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao

Yunlong Tang Jing Bi Pinxin Liu Zhenyu Pan Zhangyun Tan Qianxiang Shen Jiani Liu Hang Hua Junjia Guo Yunzhong Xiao