منذ 4 ساعات

الملخص

على الرغم من التقدم المحرز في تطبيق نماذج اللغة متعددة الوسائط الكبيرة (MLLMs) في مهام الفيديو المتنوعة، فإن التنبؤ بأحداث الفيديو (VEP) لا يزال مجالًا غير مستكشف نسبيًا. يتطلب التنبؤ بأحداث الفيديو من النماذج إجراء نمذجة زمنية دقيقة للمقاطع المرئية، وإقامة علاقات منطقية بين الفيديو والأحداث المستقبلية، وهو ما لا تزال النماذج الحالية تواجه صعوبة في تحقيقه. في هذا العمل، نقدم أولاً تقييمًا شاملاً لأبرز نماذج MLLMs الرائدة في مهمة التنبؤ بأحداث الفيديو، ونكشف الأسباب الكامنة وراء دقة تنبؤاتها المنخفضة، بما في ذلك ضعف القدرة على الاستدلال المنطقي للتنبؤ بالأحداث المستقبلية، وعدم الاستفادة الكافية من المعلومات البصرية. ولمواجهة هذه التحديات، نقترح نموذج سلسلة الأحداث (Chain of Events - CoE)، الذي يُنشئ سلاسل زمنية للأحداث لفرض تركيز النموذج الضمني على المحتوى المرئي وعلى الروابط المنطقية بين الفيديو والأحداث المستقبلية، مع تحفيز قدرة النموذج على الاستدلال من خلال بروتوكولات تدريب متعددة. وتُظهر النتائج التجريبية على معايير التقييم العامة أن طريقتنا تتفوق على نماذج MLLMs الرائدة مفتوحة المصدر والتجارية على حد سواء، مما يؤسس لأفضل أداء معاصر (state-of-the-art) في مهمة التنبؤ بأحداث الفيديو. وسيتم إطلاق الأكواد والمواد النموذجية قريبًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار