تحديد الأحداث الدقيقة والتفصيلية في الفيديو

نقدم مهمة تحديد الأحداث الدقيقة والتفصيلية زمنيًا في الفيديو (اكتشاف اللحظة الدقيقة لحدوث الأحداث). يتطلب التحديد الدقيق من النماذج أن تفكر بشكل شامل على مقياس الزمن الكامل للأفعال وأن تركز محليًا على تحديد الاختلافات الدقيقة في المظهر والحركات بين الإطارات التي تعين الأحداث خلال هذه الأفعال. وبشكل مفاجئ، نجد أن الحلول الرائدة للمهام السابقة في فهم الفيديو مثل اكتشاف الأفعال وتقطيعها لا تستوفي متطلبات كلا الجانبين معًا. رداً على ذلك، نقترح E2E-Spot، وهو نموذج مدمج ومتكامل يحقق أداءً جيدًا في مهمة التحديد الدقيق ويمكن تدريبه بسرعة على وحدة معالجة رسومية واحدة (GPU). نثبت أن E2E-Spot يتفوق بشكل كبير على الخطوط الأساسية الحديثة التي تم تكييفها من أدبيات اكتشاف وتقطيع أفعال الفيديو إلى مهمة التحديد الدقيق. وأخيرًا، نساهم بتقديم شروحات جديدة وتقسيمات لمجموعات بيانات أفعال الرياضات التفصيلية لجعل هذه المجموعات البيانات مناسبة للبحوث المستقبلية في مجال التحديد الدقيق.