مُحَوِّل الفيديو ذاتي التدريب

في هذه الورقة، نقترح تدريبًا ذاتيًا (self-supervised) لمحولات الفيديو باستخدام بيانات فيديو غير مُعلَّمة. من فيديو معطى، نُنشئ رؤى مكانية وزمانيّة محلّية وعالمية بمقاييس مكانية ومعدلات إطارات مختلفة. يهدف الهدف الذاتي المُدرّب إلى مطابقة الميزات الخاصة بهذه الرؤى المختلفة التي تمثل نفس الفيديو، بحيث تكون غير حساسة للتغيرات المكانية والزمنية في الحركات. إلى حد معرفتنا، يُعدّ النهج المقترح أول نهج يُخفّف من الاعتماد على أمثلة سلبية (negative samples) أو بنوك ذاكرة مخصصة في محولات الفيديو ذاتية التدريب (SVT). علاوةً على ذلك، وبفضل المرونة التي تُقدّمها نماذج المحولات (Transformers)، يدعم SVT معالجة الفيديو البطيئة والسريعة ضمن بنية واحدة باستخدام ترميز موقعي ديناميكي، كما يدعم نمذجة العلاقات الطويلة الأمد على المحاور المكانية والزمنية. ويُظهر الأداء الجيد في أربع معايير للتعرف على الحركات (Kinetics-400، UCF-101، HMDB-51، وSSv2)، ويتقارب بشكل أسرع باستخدام أحجام دُفعات صغيرة. الكود: https://git.io/J1juJ