دالة خسارة واعية بالسياق للكشف عن الأفعال في مقاطع الفيديو لكرة القدم

في فهم الفيديو، يتألف تحديد الأحداث من توطين أحداث مُسبَّبة بفعل البشر بشكل زمني باستخدام زمن واحد مُسجَّل لكل حدث. في هذا البحث، نقترح دالة خسارة جديدة تأخذ بعين الاعتبار السياق الزمني المحيط بكل فعل بشكل طبيعي، بدلاً من التركيز على الإطار الزمني الواحد المُشخَّص لتحديد الحدث. نقوم بتقييم أدائنا باستخدام مجموعة بيانات كبيرة من مقاطع الفيديو الخاصة بكرة القدم، وهي "SoccerNet"، ونحقق تحسيناً بنسبة 12.8% مقارنة بالنموذج الأساسي. نوضح قدرة دالتنا على التعميم لاقتراحات الأنشطة العامة وكشفها على "ActivityNet" من خلال تحديد بداية ونهاية كل نشاط. بالإضافة إلى ذلك، نقدم دراسة تحليلية موسعة ونعرض حالات صعبة لتحديد الأحداث في مقاطع الفيديو الخاصة بكرة القدم. أخيراً، نوضح كيف أن دالتنا الخسارة تؤدي إلى فهم زمني دقيق للأفعال وكيف يمكن استخدام هذه المعرفة الدلالية لتوليد عروض ملخصات آلية.