HyperAIHyperAI
منذ 17 أيام

المحولات البصرية متعددة المقاييس

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer
المحولات البصرية متعددة المقاييس
الملخص

نقدّم نماذج التحويلات متعددة المقياس (MViT) للتمييز بين الفيديو والصور، من خلال ربط الفكرة الأساسية لهرم الميزات متعددة المقياس مع نماذج التحويلات (Transformers). تمتلك التحويلات متعددة المقياس عدة مراحل تتمحور حول التغير في عدد القنوات ودقة الحلقة. تبدأ هذه المراحل من دقة الإدخال الأصلية وعدد قنوات صغير، ثم تُوسَّع تدريجيًا قدرة القنوات مع تقليل الدقة المكانية. هذا يُنشئ هرمًا متعدد المقياس للميزات، حيث تعمل الطبقات المبكرة بدلالة مكانية عالية لتمثيل المعلومات البصرية البسيطة ذات المستوى المنخفض، بينما تعمل الطبقات العميقة بدلالة مكانية خشنة لكنها معقدة وذات أبعاد عالية. قمنا بتقييم هذا الافتراض المعماري الأساسي لتمثيل الطبيعة الكثيفة للإشارات البصرية في مجموعة متنوعة من مهام تمييز الفيديو، حيث تفوقت النموذج على التحويلات البصرية المتزامنة التي تعتمد على التدريب المسبق الخارجي على نطاق واسع، وهي أكثر تكلفةً في الحوسبة والمعاملات بنسبة 5 إلى 10 أضعاف. كما قمنا بإزالة البُعد الزمني وتطبيق النموذج على تصنيف الصور، حيث تفوق على الأعمال السابقة في مجال التحويلات البصرية. يمكن الوصول إلى الكود من خلال: https://github.com/facebookresearch/SlowFast

المحولات البصرية متعددة المقاييس | أحدث الأوراق البحثية | HyperAI