التفكير من خلال الفيديو: توليد الفيديو كنمط واعد للاستدلال متعدد الوسائط

الملخص
يُعد نموذج "التفكير من خلال النص" و"التفكير من خلال الصور" مبادئًا تُسهم بشكل كبير في تحسين قدرة النماذج اللغوية الكبيرة (LLMs) ونماذج اللغة والرؤية (VLMs) على التفكير المنطقي. ومع ذلك، تُعاني هذه المبادئ من قيود جوهرية: (1) تُلتقط الصور لحظات محددة فقط، ولا تُمكّن من تمثيل العمليات الديناميكية أو التغيرات المستمرة؛ و(2) تُبقي النص والرؤية ككائنين منفصلين من حيث الوسائط، مما يُعيق التمكُّن من فهم موحد وولادة مُتعددة الوسائط. ولsuperar هذه القيود، نُقدِّم مبدأً جديدًا يُسمَّى "التفكير من خلال الفيديو"، الذي يُستخدَم فيه نماذج توليد الفيديو، مثل Sora-2، لربط التفكير البصري والفكري النصي ضمن إطار زمني موحد. ولدعم هذا الاستكشاف، قمنا بتطوير "مقياس التفكير بالفيديو" (VideoThinkBench). يشمل مقياس VideoThinkBench فئتين من المهام: (1) المهام المُركَّزة على الرؤية (مثل ألغاز "الإدراك البصري")، و(2) المهام المُركَّزة على النص (مثل نُسخ مختارة من GSM8K وMMMU). وقد أظهرت تقييماتنا أن Sora-2 يمتلك قدرة متميزة على التفكير. ففي المهام المُركَّزة على الرؤية، يُعد Sora-2 مُنافسًا قويًا للنماذج الراهنة المُتقدمة (SOTA) من نماذج VLM، بل يتفوَّق على بعضها في مهام محددة، مثل ألعاب "الإدراك البصري". وفي المهام المُركَّزة على النص، حقق Sora-2 دقة تصل إلى 92% في مسألة MATH، و75.53% في MMMU. علاوةً على ذلك، قمنا بتحليل منهجي لجذور هذه القدرات. ووجدنا أيضًا أن مفهوم "الاتساق الذاتي" (self-consistency) و"التعلم في السياق" (in-context learning) يمكن أن يُحسِّنَان من أداء Sora-2. في الختام، تُبيِّن نتائجنا أن نموذج توليد الفيديو يُمكِّن من التمكُّن المُتعدد الوسائط المُوحَّد، ويُرسي مبدأ "التفكير من خلال الفيديو" كمُفهوم موحد للاستدلال متعدد الوسائط.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.