HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 6 أيام

الاستنتاج من خلال الفيديو: أول تقييم لقدرات الاستنتاج النموذجية للفيديوهات من خلال مهام حل المتاهات

الاستنتاج من خلال الفيديو: أول تقييم لقدرات الاستنتاج النموذجية للفيديوهات من خلال مهام حل المتاهات

الملخص

أحرزت نماذج الفيديو تقدماً ملحوظاً في إنشاء فيديوهات عالية الولاء مع ديناميات حركة متماسكة. وتشبه تطور نماذج الفيديو، من توليد النصوص إلى التفكير القائم على النص في نمذجة اللغة، سؤالاً يدفعنا للتساؤل: هل يمكن لنموذج الفيديو أن يُجرّب التفكير من خلال توليد الفيديو؟ مقارنةً بملف النصوص المنفصلة، يُرتكز التفكير في الفيديو على تخطيطات مكانيّة صريحة واتصال زمني، مما يجعله قاعدة مثالية للتفكير المكاني. في هذا العمل، نستكشف نموذج التفكير من خلال الفيديو ونقدّم VR-Bench — معيارًا شاملاً مصممًا لتقييم قدرات نماذج الفيديو على التفكير بشكل منهجي. يُبنى VR-Bench على مهام حل المتاهات التي تتطلب بالضرورة تخطيطاً مكانيًا وتفكيرًا متعدد الخطوات، ويتضمّن 7920 فيديو تم إنشاؤه بشكل تلقائي عبر خمسة أنواع من المتاهات وأسلوب بصري متنوع. تُظهر التحليلات التجريبية أن التدريب المُحسّن (SFT) يمكنه استثارة قدرة التفكير في نماذج الفيديو بكفاءة. وتُظهر نماذج الفيديو تحسّناً في الإدراك المكاني أثناء التفكير، وتتفوّق على أبرز نماذج الفيديو واللغة (VLMs)، وتُظهر قدرة عامة جيدة عبر سيناريوهات ومهام ومستويات معقدة متنوعة. كما اكتشفنا تأثير التوسع أثناء الاختبار، حيث يُحسّن التوليد المتنوع أثناء الاستدلال موثوقية التفكير بنسبة 10 إلى 20٪. تُبرز هذه النتائج الإمكانيات الفريدة والقابلية للتوسع للتفكير من خلال الفيديو في المهام المتعلقة بالتفكير المكاني.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستنتاج من خلال الفيديو: أول تقييم لقدرات الاستنتاج النموذجية للفيديوهات من خلال مهام حل المتاهات | الأوراق البحثية | HyperAI