HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة التحويلة المرئية

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

الملخص

يقدم هذا البحث إطار عمل يُسمى VTN، وهو إطار مبني على المحولات (Transformer) للتمييز في الفيديو. مستوحى من التطورات الحديثة في المحولات البصرية، نتخلى عن النهج القياسي في تمييز الحركات في الفيديو الذي يعتمد على الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D ConvNets)، ونُقدّم طريقة تصنف الحركات من خلال التركيز على معلومات التسلسل الكامل للفيديو. يتميز نهجنا بالعمومية، حيث يُبنى على أي شبكة فضائية ثنائية الأبعاد (2D) مُعطاة. من حيث زمن التشغيل الفعلي على الجدار (wall runtime)، يُدرّس النموذج بسرعة تزيد عن 16.1 مرة، ويُنفّذ بسرعة تزيد عن 5.1 مرة أثناء الاستدلال، مع الحفاظ على دقة تنافسية مقارنةً بطرق الحالة الحالية الأخرى. ويُمكّن هذا النهج من تحليل الفيديو بالكامل من خلال عملية واحدة نهائية (end-to-end)، مع تقليل الحاجة إلى 1.5 مرة من العمليات الحسابية (GFLOPs). نُقدّم نتائج تنافسية على مجموعة بيانات Kinetics-400، ونُجري دراسة تحليلية (ablation study) لخصائص VTN، ونُناقش التوازن بين الدقة وسرعة الاستدلال. نأمل أن يُصبح هذا النهج قاعدة معيارية جديدة، ويُشعل خطًا بحثيًا جديدًا في مجال تمييز الفيديو. يمكن الوصول إلى الكود والنماذج من خلال الرابط التالي: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp