HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة

الملخص

تمثّل فهم الفيديو أكثر الحدود تحدّياً في مجال الرؤية الحاسوبية، حيث تتطلّب النماذج القدرة على التفكير في العلاقات المكانية الزمنية المعقدة، والتبعيات طويلة المدى، ودمج الأدلة متعددة الوسائط. وقد أظهرت النماذج متعددة الوسائط الكبيرة للفيديوهات (Video-LMMs) التي ظهرت مؤخراً، والتي تدمج مُشفّرات بصرية مع نماذج لغوية قوية تعتمد على المُفكّرات (decoders)، قدرات ملحوظة في مهام فهم الفيديو. ومع ذلك، يظلّ المرحلة الحاسمة التي تحوّل هذه النماذج من أنظمة إدراكية أساسية إلى محركات تفكير متقدمة، وهي مرحلة ما بعد التدريب (post-training)، مجزأة ومتفرقة في الأدبيات العلمية.تُقدّم هذه المراجعة أول تحليل شامل لأساليب ما بعد التدريب الخاصة بنماذج Video-LMMs، وتغطي ثلاث ركائز أساسية: التدريب الدقيق المُرشّح (SFT) مع نموذج التفكير المتسلسل (chain-of-thought)، والتعلم القائم على المكافآت (RL) من أهداف قابلة للتحقق، وتمديد الحساب أثناء الاختبار (TTS) من خلال تعزيز القدرة الحسابية أثناء الاستدلال. ونقدّم تصنيفًا منظّماً يوضح الأدوار، والروابط المتبادلة، والتكيفات الخاصة بالفيديوهات لهذه الأساليب، مع معالجة التحديات الفريدة مثل تحديد الموقع الزمني، والتثبيت المكاني الزمني، والكفاءة في معالجة الفيديوهات الطويلة، ودمج الأدلة متعددة الوسائط.من خلال تحليل منهجي للأساليب الممثلة، نُلخّص المبادئ التصميمية الأساسية، والرؤى الهامة، وبروتوكولات التقييم، مع تحديد التحديات المفتوحة الحاسمة المتعلقة بتصميم المكافآت، والقابلية للتوسع، وتحسين توازن التكلفة والأداء. كما نُقدّم قائمة مختارة من المعايير الأساسية، والبيانات، والمقاييس لتمكين تقييم دقيق لفعالية ما بعد التدريب. تهدف هذه المراجعة إلى توفير إطار موحّد للباحثين والمتخصصين لدفع تقدّم قدرات نماذج Video-LMMs. ويتم الحفاظ على مصادر إضافية وتحديثات مستمرة على الرابط التالي:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التدريب اللاحق لنموذج الفيديو متعدد الوسائط الكبير: نظرة متعمقة في التفكير في الفيديو باستخدام النماذج متعددة الوسائط الكبيرة | مستندات | HyperAI