مُحَوِّل فيديو سوين

تشهد مجتمع الرؤية تحوّلاً في النمذجة من الشبكات العصبية التلافيفية (CNNs) نحو النماذج القائمة على المحولات (Transformers)، حيث حققت الهياكل النموذجية الخالصة القائمة على المحولات أعلى دقة على أهم معايير التعرف على الفيديو. تعتمد هذه النماذج الفيديوية كافة على طبقات محولات تقوم بربط الفواصل (patches) بشكل عالمي عبر الأبعاد المكانية والزمنية. في هذا البحث، ندعو إلى تبني مبدأ التحيّز الاستنتاجي للتناظر المحلي في نماذج المحولات الفيديوية، مما يؤدي إلى تحسين ميزان السرعة-الدقة مقارنة بالأساليب السابقة التي تحسب الانتباه الذاتي بشكل عالمي، حتى مع تجزئة الأبعاد المكانية والزمنية. يتم تحقيق التماسك المحلي في المعمارية المقترحة من خلال تعديل نموذج Swin Transformer المصمم لبيئة الصور، مع الاستمرار في الاستفادة من قوة النماذج المُدرّبة مسبقًا على الصور. تحقق هذه الطريقة دقةً متقدمة على نطاق واسع من معايير التعرف على الفيديو، بما في ذلك التعرف على الحركات (دقة 84.9 في المركز الأول على Kinetics-400 و86.1 على Kinetics-600 مع استخدام ما يقارب 20 مرة أقل من بيانات التدريب المسبق وحجم نموذج أصغر بثلاث مرات)، وكذلك نمذجة الزمن (دقة 69.6 في المركز الأول على Something-Something v2). سيتم إتاحة الكود والنماذج بشكل عام عبر الرابط: https://github.com/SwinTransformer/Video-Swin-Transformer.