HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات البصرية متعددة المقاييس

Haoqi Fan Bo Xiong Karttikeya Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer

الملخص

نقدّم نماذج التحويلات متعددة المقياس (MViT) للتمييز بين الفيديو والصور، من خلال ربط الفكرة الأساسية لهرم الميزات متعددة المقياس مع نماذج التحويلات (Transformers). تمتلك التحويلات متعددة المقياس عدة مراحل تتمحور حول التغير في عدد القنوات ودقة الحلقة. تبدأ هذه المراحل من دقة الإدخال الأصلية وعدد قنوات صغير، ثم تُوسَّع تدريجيًا قدرة القنوات مع تقليل الدقة المكانية. هذا يُنشئ هرمًا متعدد المقياس للميزات، حيث تعمل الطبقات المبكرة بدلالة مكانية عالية لتمثيل المعلومات البصرية البسيطة ذات المستوى المنخفض، بينما تعمل الطبقات العميقة بدلالة مكانية خشنة لكنها معقدة وذات أبعاد عالية. قمنا بتقييم هذا الافتراض المعماري الأساسي لتمثيل الطبيعة الكثيفة للإشارات البصرية في مجموعة متنوعة من مهام تمييز الفيديو، حيث تفوقت النموذج على التحويلات البصرية المتزامنة التي تعتمد على التدريب المسبق الخارجي على نطاق واسع، وهي أكثر تكلفةً في الحوسبة والمعاملات بنسبة 5 إلى 10 أضعاف. كما قمنا بإزالة البُعد الزمني وتطبيق النموذج على تصنيف الصور، حيث تفوق على الأعمال السابقة في مجال التحويلات البصرية. يمكن الوصول إلى الكود من خلال: https://github.com/facebookresearch/SlowFast


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp