المحولات البصرية متعددة المقاييس

نقدّم نماذج التحويلات متعددة المقياس (MViT) للتمييز بين الفيديو والصور، من خلال ربط الفكرة الأساسية لهرم الميزات متعددة المقياس مع نماذج التحويلات (Transformers). تمتلك التحويلات متعددة المقياس عدة مراحل تتمحور حول التغير في عدد القنوات ودقة الحلقة. تبدأ هذه المراحل من دقة الإدخال الأصلية وعدد قنوات صغير، ثم تُوسَّع تدريجيًا قدرة القنوات مع تقليل الدقة المكانية. هذا يُنشئ هرمًا متعدد المقياس للميزات، حيث تعمل الطبقات المبكرة بدلالة مكانية عالية لتمثيل المعلومات البصرية البسيطة ذات المستوى المنخفض، بينما تعمل الطبقات العميقة بدلالة مكانية خشنة لكنها معقدة وذات أبعاد عالية. قمنا بتقييم هذا الافتراض المعماري الأساسي لتمثيل الطبيعة الكثيفة للإشارات البصرية في مجموعة متنوعة من مهام تمييز الفيديو، حيث تفوقت النموذج على التحويلات البصرية المتزامنة التي تعتمد على التدريب المسبق الخارجي على نطاق واسع، وهي أكثر تكلفةً في الحوسبة والمعاملات بنسبة 5 إلى 10 أضعاف. كما قمنا بإزالة البُعد الزمني وتطبيق النموذج على تصنيف الصور، حيث تفوق على الأعمال السابقة في مجال التحويلات البصرية. يمكن الوصول إلى الكود من خلال: https://github.com/facebookresearch/SlowFast