تعلم الخصائص المكانية-الزمانية ذاتيًا عبر التنبؤ بدوران الفيديو

يُعد نجاح الشبكات العصبية العميقة عمومًا مرهونًا بوجود كمية ضخمة من البيانات التدريبية المصنفة، وهو أمر باهظ الثمن وغير قابل للتنفيذ على نطاق واسع، خاصة بالنسبة لمجموعات الفيديو. لحل هذه المشكلة، نقترح في هذا البحث 3DRotNet: وهي طريقة ذاتية الإشراف بالكامل لتعلم الخصائص الزمانية-المكانية من الفيديوهات غير المصنفة. يتم تطبيق مجموعة من الدورانات على جميع الفيديوهات، ويُعرَّف مهمة مسبقة كتنبؤ بهذه الدورانات. عند إنجاز هذه المهمة، يتم تدريب 3DRotNet فعليًا على فهم المفاهيم الدلالية والحركات في الفيديوهات. بعبارة أخرى، تتعلم تمثيل فيديو زماني-مكاني يمكن نقله لتحسين مهام فهم الفيديو في مجموعات بيانات صغيرة. أثبتت تجاربنا الواسعة بنجاح فعالية الإطار المقترح في التعرف على الأفعال، مما يؤدي إلى تحسينات كبيرة مقارنة بالطرق الذاتية الإشراف الأكثر حداثة. مع استخدام النموذج الذاتي الإشراف 3DRotNet المدرب مسبقًا من مجموعات بيانات كبيرة، ارتفعت دقة التعرف بنسبة 20.4% على UCF101 و16.7% على HMDB51 على التوالي، مقارنة بالنموذج الذي تم تدريبه من الصفر (from scratch).