Command Palette
Search for a command to run...
فيديو-ثينكر: إشعال "التفكير مع الفيديوهات" من خلال التعلم المعزز
فيديو-ثينكر: إشعال "التفكير مع الفيديوهات" من خلال التعلم المعزز
Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng
الملخص
أظهرت التطورات الحديثة في أساليب الاستدلال البصري، وبخاصة نموذج "التفكير من خلال الصور" (Thinking with Images)، نجاحًا ملحوظًا في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs)؛ ومع ذلك، لم يُمَدَّ هذا النموذج الديناميكي للاستدلال حتى الآن إلى مهام استدلال الفيديو. في هذا البحث، نُقدِّم "Video-Thinker"، الذي يمكّن نماذج MLLMs من التفكير من خلال الفيديو من خلال الاستفادة التلقائية من قدراتها المُتأصلة في "الترسيخ" (grounding) و"الوصف التلقائي" (captioning) لتكوين أدلة استدلالية طوال عملية الاستنتاج. ولإطلاق هذه القدرة، قمنا ببناء مجموعة بيانات مُختارة تُسمى Video-Thinker-10K، والتي تتميز باستخدام تلقائي للأدوات ضمن سلاسل الاستدلال متعددة الخطوات (chain-of-thought). يبدأ نهجنا التدريبي بتحسين التدريب المراقب (Supervised Fine-Tuning - SFT) لتعلم تنسيق الاستدلال، ثم يليه تحسين سياسة المجموعة النسبية (Group Relative Policy Optimization - GRPO) لتعزيز هذه القدرة الاستدلالية. وباستخدام هذا النهج، يمكّن Video-Thinker نماذج MLLMs من التنقل التلقائي في مهام الترسيخ والوصف التلقائي للفيديو، مما يُلغِي الحاجة إلى إنشاء أدوات خارجية أو استدعاءها. تُظهر التجارب الواسعة أن Video-Thinker يحقق تحسينات كبيرة في الأداء على المهام داخل المجال، وكذلك على معايير الاستدلال الفيديوي الصعبة خارج المجال، بما في ذلك Video-Holmes وCG-Bench-Reasoning وVRBench. ويتفوّق Video-Thinker-7B بشكل كبير على النماذج الأساسية الحالية مثل Video-R1، ويُحقّق أفضل أداء مُسجّل حتى الآن بين نماذج MLLMs ذات الحجم 7B.