
أظهرت أنظمة فهم الفيديو/الإجراءات الحالية أداءً مبهرًا في مهام التعرف الكبيرة. ومع ذلك، قد تكون محدودة في تعلم التعرف على الأنماط الزمانية-المكانية فقط، بدلًا من محاولة فهم عميق للإجراءات. ولإثارة التقدم في اتجاه فهم أعمق وأكثر صدقًا للفيديوهات، نقدّم مهمة التعرف على الإجراءات الفائزة والخاسرة — أي التمييز بين المحاولات الناجحة والفاشلة في مختلف الأنشطة. ونقدّم أول مجموعة بيانات من نوعها تتضمن أزواجًا من الإجراءات الفائزة والخاسرة، مستمدة من المجالات التالية: "التمارين العامة"، "النجاحات والخسائر على الإنترنت"، "الإسقاطات الماهرة"، و"ألعاب الحفلات". على عكس مجموعات البيانات الحالية للتعرف على الإجراءات، تتميز هذه المجموعة بتنوع داخلي عالٍ بين الفئات، مما يجعل المهمة تحديًا كبيرًا، لكنها قابلة للتحقيق. ونحلل بشكل منهجي خصائص مهمة التعرف على الإجراءات الفائزة والخاسرة/المجموعة باستخدام شبكات التعرف على الإجراءات النموذجية ومهام استرجاع الفيديو الجديدة. وعلى الرغم من أن الطرق الحالية للتعرف على الإجراءات تعمل جيدًا على مجموعتنا، إلا أنها لا تزال تترك فجوة كبيرة أمام تحقيق أداء عالٍ. ونأمل أن نشجع المزيد من الأبحاث نحو فهم حقيقي للإجراءات والفيديوهات. ستكون المجموعة متاحة عبر: https://github.com/ParitoshParmar/Win-Fail-Action-Recognition.