HyperAIHyperAI

Command Palette

Search for a command to run...

X3D: توسيع المعمارية للاعتراف الفعّال بالفيديو

Christoph Feichtenhofer

الملخص

تقدم هذه الورقة معيار X3D، وهو عائلة من الشبكات الفيديوية الفعّالة التي تقوم بتوسيع تدريجي لهيكل صغير لتصنيف الصور ثنائية الأبعاد عبر محاور الشبكة المتعددة: الفضاء، الزمن، العرض، والعمق. مستوحاة من أساليب اختيار الميزات في التعلم الآلي، تُستخدم طريقة بسيطة لتوسيع الشبكة خطوة بخطوة، حيث يتم توسيع محور واحد في كل خطوة، مما يُحقق توازنًا ممتازًا بين الدقة وتعقيد الشبكة. لتوسيع X3D إلى تعقيد مستهدف معين، نُنفّذ توسيعًا تدريجيًا للأمام يتبعه انكماش عكسي. تحقق X3D أداءً يُعدّ الأفضل في مجاله، مع احتياجها إلى 4.8 مرة وأكثر من 5.5 مرة أقل من عمليات الضرب والجمع (multiply-adds) والمتغيرات (البارامترات) مقارنةً بالعمل السابق، مع الحفاظ على دقة مشابهة. وأبرز اكتشاف لدينا هو أن الشبكات ذات الدقة الفضائية-الزمنية العالية يمكنها الأداء الجيد، مع أن تكون خفيفة جدًا من حيث عرض الشبكة والمتغيرات. نُعلن عن دقة تنافسية على معايير تصنيف وتحديد الفيديو، بفعالية غير مسبوقة. سيكون الكود متاحًا عبر: https://github.com/facebookresearch/SlowFast


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
X3D: توسيع المعمارية للاعتراف الفعّال بالفيديو | مستندات | HyperAI