HyperAIHyperAI
منذ 17 أيام

المحولات متعددة الزوايا للتمييز عن الفيديو

Shen Yan, Xuehan Xiong, Anurag Arnab, Zhichao Lu, Mi Zhang, Chen Sun, Cordelia Schmid
المحولات متعددة الزوايا للتمييز عن الفيديو
الملخص

يتطلب فهم الفيديو استنتاجًا على مقاييس زمنية ومكانية متعددة — من الحركات الدقيقة القصيرة إلى الأحداث التي تحدث على مدى فترات زمنية أطول. وعلى الرغم من التقدم الذي حققته هياكل المُحَوِّل (transformer) حديثًا في تحسين أداء النماذج، إلا أنها لم تُنمذج بشكل صريح مقاييس زمنية ومكانية مختلفة. وللإجابة على هذا التحدي، نقدّم نموذج "مُحَوِّلات متعددة الأطراف لتمييز الفيديو" (Multiview Transformers for Video Recognition - MTV). يتكون نموذجنا من مُشَفرات منفصلة تمثل أطرًا مختلفة للفيديو المُدخل، مع روابط جانبية لدمج المعلومات بين هذه الأطر. نقدم دراسات تحليلية مفصلة لنماذجنا، ونُظهر أن MTV يتفوق باستمرار على النماذج ذات المنظور الواحد من حيث الدقة وتكلفة الحوسبة عبر مجموعة متنوعة من أحجام النماذج. علاوةً على ذلك، حققنا نتائج متقدمة على ستة مجموعات بيانات قياسية، مع تحسين إضافي عند استخدام التدريب المسبق على نطاق واسع. يمكن الوصول إلى الكود والنقاط المحفوظة عبر الرابط التالي: https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.

المحولات متعددة الزوايا للتمييز عن الفيديو | أحدث الأوراق البحثية | HyperAI