HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

TiViBench: تقييم التفكير في الفيديو للنماذج التوليدية للفيديوهات

TiViBench: تقييم التفكير في الفيديو للنماذج التوليدية للفيديوهات

الملخص

شهدت النماذج المتولدة للفيديوهات تطورًا سريعًا، حيث انتقل تركيزها من إنتاج مخرجات مرئية واقعية إلى معالجة مهام تتطلب واقعية فيزيائية واتساقًا منطقيًا. ومع ذلك، وعلى الرغم من التقدم الأخير مثل الاستدلال المتسلسل للإطارات في Veo 3، لا يزال غير واضح ما إذا كانت هذه النماذج قادرة على عرض قدرات استدلالية مشابهة لتلك التي تمتلكها النماذج اللغوية الكبيرة (LLMs). وتقيّم المعايير الحالية بشكل أساسي وضوح الصورة والاتساق الزمني، مما يفشل في التقاط القدرات الاستدلالية من الدرجة العليا. ولسد هذه الفجوة، نقترح TiViBench، وهو معيار هرمي مصمم خصيصًا لتقييم قدرات الاستدلال في نماذج التوليد من الصور إلى الفيديو (I2V). يُقيّم TiViBench الاستدلال بشكل منهجي عبر أربعة أبعاد: (أ) الاستدلال البنائي والبحث، (ب) الاستدلال المكاني والأنماط البصرية، (ج) الاستدلال الرمزي والمنطقي، (د) التخطيط للإجراءات وتنفيذ المهام، على امتداد 24 سيناريوًا متنوعًا تُصنف إلى ثلاث مستويات من الصعوبة. من خلال تقييمات واسعة النطاق، نُظهر أن النماذج التجارية (مثل Sora 2 وVeo 3.1) تُظهر إمكانات استدلالية أقوى، في حين تُبْرِز النماذج المفتوحة المصدر إمكانات غير مستغلة تُحَدَّد بقيود في حجم التدريب وتنوع البيانات. ولإطلاق هذا الاحتمال، نقدّم VideoTPO، وهي استراتيجية بسيطة وفعّالة تُطبَّق عند وقت التقييم، مستوحاة من تحسين التفضيلات. من خلال إجراء تحليل ذاتي بواسطة نموذج لغوي كبير (LLM) على المرشحات المولّدة لتحديد نقاط القوة والضعف، تُحسّن VideoTPO بشكل كبير أداء الاستدلال دون الحاجة إلى تدريب إضافي أو بيانات جديدة أو نماذج مكافأة. معًا، يُشكّل TiViBench وVideoTPO أساسًا لتطوير وتقييم القدرات الاستدلالية في نماذج توليد الفيديو، مُسَدِّدًا الطريق أمام الأبحاث المستقبلية في هذا المجال الناشئ.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TiViBench: تقييم التفكير في الفيديو للنماذج التوليدية للفيديوهات | الأوراق البحثية | HyperAI