منذ 5 أيام

فيديو-ثينكر: إشعال "التفكير مع الفيديوهات" من خلال التعلم المعزز

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

الملخص

أظهرت التطورات الحديثة في أساليب الاستدلال البصري، وبخاصة نموذج "التفكير من خلال الصور" (Thinking with Images)، نجاحًا ملحوظًا في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs)؛ ومع ذلك، لم يُمَدَّ هذا النموذج الديناميكي للاستدلال حتى الآن إلى مهام استدلال الفيديو. في هذا البحث، نُقدِّم "Video-Thinker"، الذي يمكّن نماذج MLLMs من التفكير من خلال الفيديو من خلال الاستفادة التلقائية من قدراتها المُتأصلة في "الترسيخ" (grounding) و"الوصف التلقائي" (captioning) لتكوين أدلة استدلالية طوال عملية الاستنتاج. ولإطلاق هذه القدرة، قمنا ببناء مجموعة بيانات مُختارة تُسمى Video-Thinker-10K، والتي تتميز باستخدام تلقائي للأدوات ضمن سلاسل الاستدلال متعددة الخطوات (chain-of-thought). يبدأ نهجنا التدريبي بتحسين التدريب المراقب (Supervised Fine-Tuning - SFT) لتعلم تنسيق الاستدلال، ثم يليه تحسين سياسة المجموعة النسبية (Group Relative Policy Optimization - GRPO) لتعزيز هذه القدرة الاستدلالية. وباستخدام هذا النهج، يمكّن Video-Thinker نماذج MLLMs من التنقل التلقائي في مهام الترسيخ والوصف التلقائي للفيديو، مما يُلغِي الحاجة إلى إنشاء أدوات خارجية أو استدعاءها. تُظهر التجارب الواسعة أن Video-Thinker يحقق تحسينات كبيرة في الأداء على المهام داخل المجال، وكذلك على معايير الاستدلال الفيديوي الصعبة خارج المجال، بما في ذلك Video-Holmes وCG-Bench-Reasoning وVRBench. ويتفوّق Video-Thinker-7B بشكل كبير على النماذج الأساسية الحالية مثل Video-R1، ويُحقّق أفضل أداء مُسجّل حتى الآن بين نماذج MLLMs ذات الحجم 7B.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

فيديو-ثينكر: إشعال "التفكير مع الفيديوهات" من خلال التعلم المعزز

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters