HyperAIHyperAI

Command Palette

Search for a command to run...

فيديو-كوي: تعزيز التنبؤ بالأحداث الفيديو عبر سلسلة الأحداث

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

الملخص

على الرغم من التقدم المحرز في تطبيق نماذج اللغة متعددة الوسائط الكبيرة (MLLMs) في مهام الفيديو المتنوعة، فإن التنبؤ بأحداث الفيديو (VEP) لا يزال مجالًا غير مستكشف نسبيًا. يتطلب التنبؤ بأحداث الفيديو من النماذج إجراء نمذجة زمنية دقيقة للمقاطع المرئية، وإقامة علاقات منطقية بين الفيديو والأحداث المستقبلية، وهو ما لا تزال النماذج الحالية تواجه صعوبة في تحقيقه. في هذا العمل، نقدم أولاً تقييمًا شاملاً لأبرز نماذج MLLMs الرائدة في مهمة التنبؤ بأحداث الفيديو، ونكشف الأسباب الكامنة وراء دقة تنبؤاتها المنخفضة، بما في ذلك ضعف القدرة على الاستدلال المنطقي للتنبؤ بالأحداث المستقبلية، وعدم الاستفادة الكافية من المعلومات البصرية. ولمواجهة هذه التحديات، نقترح نموذج سلسلة الأحداث (Chain of Events - CoE)، الذي يُنشئ سلاسل زمنية للأحداث لفرض تركيز النموذج الضمني على المحتوى المرئي وعلى الروابط المنطقية بين الفيديو والأحداث المستقبلية، مع تحفيز قدرة النموذج على الاستدلال من خلال بروتوكولات تدريب متعددة. وتُظهر النتائج التجريبية على معايير التقييم العامة أن طريقتنا تتفوق على نماذج MLLMs الرائدة مفتوحة المصدر والتجارية على حد سواء، مما يؤسس لأفضل أداء معاصر (state-of-the-art) في مهمة التنبؤ بأحداث الفيديو. وسيتم إطلاق الأكواد والمواد النموذجية قريبًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp