كشف الأحداث في كرة القدم باستخدام شبكة عصبية تلافيفية ثنائية التدفق وشبكة عصبية تكرارية موسعة
يتناول هذا البحث مشكلة اكتشاف الأحداث وتحديد مواقعها في مقاطع الفيديو الطويلة الخاصة بكرة القدم (السُّوْقْرَة). وتجدر الإشارة إلى أن الفكرة الأساسية تتمثل في أن فهم الاعتماديات الطويلة المدى بين إطارات الفيديو أمر ضروري لتحديد دقيق لمواقع الأحداث في مقاطع الفيديو الطويلة لكرات القدم. علاوة على ذلك، فإن اكتشاف الأحداث بشكل صحيح يُعدّ غير ممكن بالنسبة للحركات السريعة في مقاطع كرة القدم دون أخذ الاعتماديات المتوسطة والقصيرة المدى بين الإطارات المجاورة بعين الاعتبار. ونُقدّم رأينا بأن يمكن تحسين جودة اكتشاف الأحداث بشكل ملحوظ من خلال النظر في الاعتماديات من القصيرة المدى إلى الطويلة المدى ضمن بنية موحدة. ولنمذجة الاعتماديات الطويلة والمتوسطة المدى، نقترح استخدام شبكة عصبية متكررة موسّعة (DilatedRNN) ذات وحدات ذاكرة طويلة وقصيرة الأمد (LSTM)، معتمدة على ميزات مستمدة من شبكة عصبية تلافيفية ثنائية التدفق (Two-stream CNN). في حين تقوم الشبكة الثنائية التدفق باستخراج الميزات المكانية الزمنية المحلية الضرورية لتفاصيل المستوى الدقيق، فإن DilatedRNN تجعل المعلومات المستمدة من الإطارات البعيدة متاحة لخوارزميات التصنيف واكتشاف الأحداث. وعند تقييم خوارزمية اكتشاف الأحداث لدينا على أكبر مجموعة بيانات مفتوحة المصدر متاحة للبحث في كرة القدم – SoccerNet – أظهرت نتائجنا تحسنًا في الدقة يتراوح بين 0.8% إلى 13.6% مقارنة بالأساليب الحالية الأفضل، وزيادة في الدقة تصل إلى 30.1% مقارنة بالأساليب الأساسية. كما قمنا بدراسة معمقة لدور كل مكون من مكونات الشبكة العصبية في دقة اكتشاف الأحداث من خلال دراسة استقصائية شاملة (Ablation Study).