إعادة مقياس الرؤية ذاتية المركز

يقدم هذا البحث خط أنابيب لتوسيع أكبر مجموعة بيانات في مجال الرؤية ذاتية التوجه (egocentric vision)، وهي مجموعة EPIC-KITCHENS. وتمثّل هذه الجهود ذروتها في إصدار EPIC-KITCHENS-100، الذي يضم 100 ساعة من الفيديوهات، و20 مليون إطار، و90 ألف فعل في 700 فيديو بطول متغير، ويُسجّل أنشطة طويلة الأمد غير مُعدّة مسبقًا في 45 بيئة مختلفة، باستخدام كاميرات مثبتة على الرأس. مقارنةً بالإصدار السابق، تم تسمية مجموعة EPIC-KITCHENS-100 باستخدام خط أنابيب جديد يتيح تسمية أكثر كثافة (زيادة بنسبة 54٪ في عدد الأفعال لكل دقيقة) وشمولية أكبر للأنشطة الدقيقة (+128٪ زيادة في عدد مقاطع الأفعال). تُمكّن هذه المجموعة من ظهور تحديات جديدة مثل كشف الأفعال وتقييم "اختبار الزمن" – أي ما إذا كانت النماذج المدربة على بيانات تم جمعها في عام 2018 قادرة على التعميم على مقاطع جديدة تم جمعها بعد عامين. وتتماشى المجموعة مع ستة تحديات: التعرف على الأفعال (بإشراف كامل وإشراف ضعيف)، وكشف الأفعال، وتوقع الأفعال، والاسترجاع عبر الوسائط (من النصوص الوصفية)، بالإضافة إلى التكيف دون إشراف بين المجالات للتعريف بالأنشطة. ولكل تحدٍّ من هذه التحديات، نُعرّف المهمة، ونقدّم قواعد مقارنة (baselines)، ونُحدّد مقاييس التقييم.