Command Palette
Search for a command to run...
فيديو-كوي: تعزيز التنبؤ بالأحداث الفيديو عبر سلسلة الأحداث
فيديو-كوي: تعزيز التنبؤ بالأحداث الفيديو عبر سلسلة الأحداث
Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu
الملخص
على الرغم من التقدم المحرز في تطبيق نماذج اللغة متعددة الوسائط الكبيرة (MLLMs) في مهام الفيديو المتنوعة، فإن التنبؤ بأحداث الفيديو (VEP) لا يزال مجالًا غير مستكشف نسبيًا. يتطلب التنبؤ بأحداث الفيديو من النماذج إجراء نمذجة زمنية دقيقة للمقاطع المرئية، وإقامة علاقات منطقية بين الفيديو والأحداث المستقبلية، وهو ما لا تزال النماذج الحالية تواجه صعوبة في تحقيقه. في هذا العمل، نقدم أولاً تقييمًا شاملاً لأبرز نماذج MLLMs الرائدة في مهمة التنبؤ بأحداث الفيديو، ونكشف الأسباب الكامنة وراء دقة تنبؤاتها المنخفضة، بما في ذلك ضعف القدرة على الاستدلال المنطقي للتنبؤ بالأحداث المستقبلية، وعدم الاستفادة الكافية من المعلومات البصرية. ولمواجهة هذه التحديات، نقترح نموذج سلسلة الأحداث (Chain of Events - CoE)، الذي يُنشئ سلاسل زمنية للأحداث لفرض تركيز النموذج الضمني على المحتوى المرئي وعلى الروابط المنطقية بين الفيديو والأحداث المستقبلية، مع تحفيز قدرة النموذج على الاستدلال من خلال بروتوكولات تدريب متعددة. وتُظهر النتائج التجريبية على معايير التقييم العامة أن طريقتنا تتفوق على نماذج MLLMs الرائدة مفتوحة المصدر والتجارية على حد سواء، مما يؤسس لأفضل أداء معاصر (state-of-the-art) في مهمة التنبؤ بأحداث الفيديو. وسيتم إطلاق الأكواد والمواد النموذجية قريبًا.