VideoGraph: التعرف على الأنشطة البشرية التي تستمر لدقائق في مقاطع الفيديو

تستغرق العديد من الأنشطة البشرية دقائق للتطور. لتمثيلها، تختار الأعمال ذات الصلة استخدام التجميع الإحصائي، الذي يتجاهل البنية الزمنية. في حين يختار البعض الآخر الأساليب التلافيفية مثل CNN وNon-Local (غير المحلية). رغم نجاحها في تعلم المفاهيم الزمنية، فإنها تعاني من قصور في نمذجة الارتباطات الزمنية التي تمتد لدقائق. نقترح VideoGraph (فيديوغراف)، وهي طريقة لتحقيق أفضل ما في العالمين: تمثيل الأنشطة البشرية التي تستغرق دقائق وتعلم بنية الوقت الكامنة فيها. يتعلم VideoGraph تمثيلاً قائماً على الرسم البياني لأنشطة الإنسان. يتم تعلم الرسم البياني، وعقدة الرسم البياني وأطرافه بالكامل من مجموعات بيانات الفيديو، مما يجعل VideoGraph قابلاً للتطبيق على المشكلات دون الحاجة إلى تسميات على مستوى العقدة. النتيجة هي تحسينات على الأعمال ذات الصلة في مقاييس الأداء: Epic-Kitchens (إيبك كيتشنز) وBreakfast (الإفطار). بالإضافة إلى ذلك، نثبت أن VideoGraph قادر على تعلم البنية الزمنية لأنشطة الإنسان في مقاطع الفيديو التي تمتد لدقائق.