Command Palette
Search for a command to run...
Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

الملخص
أظهرت التطورات الحديثة في أساليب الاستدلال البصري، وبخاصة نموذج "التفكير من خلال الصور" (Thinking with Images)، نجاحًا ملحوظًا في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs)؛ ومع ذلك، لم يُمَدَّ هذا النموذج الديناميكي للاستدلال حتى الآن إلى مهام استدلال الفيديو. في هذا البحث، نُقدِّم "Video-Thinker"، الذي يمكّن نماذج MLLMs من التفكير من خلال الفيديو من خلال الاستفادة التلقائية من قدراتها المُتأصلة في "الترسيخ" (grounding) و"الوصف التلقائي" (captioning) لتكوين أدلة استدلالية طوال عملية الاستنتاج. ولإطلاق هذه القدرة، قمنا ببناء مجموعة بيانات مُختارة تُسمى Video-Thinker-10K، والتي تتميز باستخدام تلقائي للأدوات ضمن سلاسل الاستدلال متعددة الخطوات (chain-of-thought). يبدأ نهجنا التدريبي بتحسين التدريب المراقب (Supervised Fine-Tuning - SFT) لتعلم تنسيق الاستدلال، ثم يليه تحسين سياسة المجموعة النسبية (Group Relative Policy Optimization - GRPO) لتعزيز هذه القدرة الاستدلالية. وباستخدام هذا النهج، يمكّن Video-Thinker نماذج MLLMs من التنقل التلقائي في مهام الترسيخ والوصف التلقائي للفيديو، مما يُلغِي الحاجة إلى إنشاء أدوات خارجية أو استدعاءها. تُظهر التجارب الواسعة أن Video-Thinker يحقق تحسينات كبيرة في الأداء على المهام داخل المجال، وكذلك على معايير الاستدلال الفيديوي الصعبة خارج المجال، بما في ذلك Video-Holmes وCG-Bench-Reasoning وVRBench. ويتفوّق Video-Thinker-7B بشكل كبير على النماذج الأساسية الحالية مثل Video-R1، ويُحقّق أفضل أداء مُسجّل حتى الآن بين نماذج MLLMs ذات الحجم 7B.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.