تعلم التمثيل الذاتي للفيديو باستخدام ألغاز المكعبات المكانية-الزمنية

تم استخدام المهام ذاتية الإشراف مثل التلوين (colorization) والتكميل (inpainting) وألغاز الجigsaw (jigsaw puzzle) في تعلم تمثيلات بصرية للصور الثابتة عندما يكون عدد الصور المصحوبة بالبيانات محدودًا أو غير موجود تمامًا. مؤخرًا، امتد هذا الاتجاه البحثي الهام إلى مجال الفيديو حيث تكون تكلفة التسمية البشرية أعلى بكثير. ومع ذلك، فإن معظم الأساليب الحالية لا تزال تعتمد على هياكل الشبكات العصبية المتلافهة ثنائية الأبعاد (2D CNN) التي لا تستطيع التقاط المعلومات الزمانية-المكانية مباشرة لتطبيقات الفيديو. في هذه الورقة البحثية، نقدم مهمة ذاتية الإشراف جديدة تُعرف باسم \textit{ألغاز الكتل الزمانية-المكانية} (\textit{Space-Time Cubic Puzzles}) لتدريب شبكات CNN ثلاثية الأبعاد باستخدام قاعدة بيانات فيديو كبيرة الحجم. تتطلب هذه المهمة من الشبكة إعادة ترتيب القطع الزمانية-المكانية ثلاثية الأبعاد المختلطة. من خلال إكمال \textit{ألغاز الكتل الزمانية-المكانية}، تتعلم الشبكة كلًا من المظهر المكاني والعلاقة الزمنية بين الإطارات الفيديوية، وهو الهدف النهائي لنا. في التجارب، أظهرنا أن التمثيل الثلاثي الأبعاد الذي تم تعلمه ينتقل بشكل جيد إلى مهام التعرف على الحركات ويتفوق على المنافسين المستندين إلى شبكات CNN ثنائية الأبعاد الأكثر حداثة في مجموعتي البيانات UCF101 و HMDB51.