HyperAIHyperAI
منذ 9 أيام

هل الانتباه الفراغي الزمني كل ما تحتاجه لفهم الفيديو؟

Gedas Bertasius, Heng Wang, Lorenzo Torresani
هل الانتباه الفراغي الزمني كل ما تحتاجه لفهم الفيديو؟
الملخص

نقدّم نهجًا خالٍ من التحويلات التلافيفية للتصنيف الفيديو، مبنيًا حصريًا على الانتباه الذاتي عبر الفضاء والزمن. يُسمّى هذا النهج "TimeSformer"، ويعتمد على تكييف معمارية Transformer القياسية للفيديوهات من خلال تمكين تعلّم الميزات الفضائية-الزمنية مباشرة من تسلسل من القطع المستخرجة من الإطارات. وقد أجرينا دراسة تجريبية مقارنة بين مختلف نُظم الانتباه الذاتي، وتبين أن "الانتباه المنقسم"، حيث يُطبّق الانتباه الزمني والفضائي بشكل منفصل داخل كل كتلة، يُحقّق أعلى دقة في التصنيف الفيديو مقارنةً بالخيارات التصميمية الأخرى المدروسة. وعلى الرغم من التصميم الجذري الجديد، يحقّق TimeSformer نتائج منافسة لأفضل النماذج الحالية على عدة معايير للتمييز عن الحركات، بما في ذلك أعلى دقة مُبلغ عنها على مجموعتي بيانات Kinetics-400 وKinetics-600. وأخيرًا، مقارنةً بشبكات التحويل التلافيفي ثلاثية الأبعاد، فإن نموذجنا أسرع في التدريب، ويُحقّق كفاءة اختبارية أعلى بشكل ملحوظ (مع انخفاض طفيف في الدقة)، كما يمكن تطبيقه على مقاطع فيديو أطول بكثير (أطول من دقيقة واحدة). يُمكن الوصول إلى الكود والنماذج من خلال: https://github.com/facebookresearch/TimeSformer.

هل الانتباه الفراغي الزمني كل ما تحتاجه لفهم الفيديو؟ | أحدث الأوراق البحثية | HyperAI