HyperAIHyperAI

Command Palette

Search for a command to run...

هل الانتباه الفراغي الزمني كل ما تحتاجه لفهم الفيديو؟

Gedas Bertasius Heng Wang Lorenzo Torresani

الملخص

نقدّم نهجًا خالٍ من التحويلات التلافيفية للتصنيف الفيديو، مبنيًا حصريًا على الانتباه الذاتي عبر الفضاء والزمن. يُسمّى هذا النهج "TimeSformer"، ويعتمد على تكييف معمارية Transformer القياسية للفيديوهات من خلال تمكين تعلّم الميزات الفضائية-الزمنية مباشرة من تسلسل من القطع المستخرجة من الإطارات. وقد أجرينا دراسة تجريبية مقارنة بين مختلف نُظم الانتباه الذاتي، وتبين أن "الانتباه المنقسم"، حيث يُطبّق الانتباه الزمني والفضائي بشكل منفصل داخل كل كتلة، يُحقّق أعلى دقة في التصنيف الفيديو مقارنةً بالخيارات التصميمية الأخرى المدروسة. وعلى الرغم من التصميم الجذري الجديد، يحقّق TimeSformer نتائج منافسة لأفضل النماذج الحالية على عدة معايير للتمييز عن الحركات، بما في ذلك أعلى دقة مُبلغ عنها على مجموعتي بيانات Kinetics-400 وKinetics-600. وأخيرًا، مقارنةً بشبكات التحويل التلافيفي ثلاثية الأبعاد، فإن نموذجنا أسرع في التدريب، ويُحقّق كفاءة اختبارية أعلى بشكل ملحوظ (مع انخفاض طفيف في الدقة)، كما يمكن تطبيقه على مقاطع فيديو أطول بكثير (أطول من دقيقة واحدة). يُمكن الوصول إلى الكود والنماذج من خلال: https://github.com/facebookresearch/TimeSformer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp