منذ 18 أيام

VidTr: نموذج تحويلي للفيديو بدون تآثرات

Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe

الملخص

نُقدِّم نموذج "مُحَوِّل الفيديو" (VidTr) المُستند إلى الانتباه المنفصل للتصنيف الفيديو. مقارنةً بالشبكات ثلاثية الأبعاد الشائعة الاستخدام، يتمكّن VidTr من تجميع المعلومات المكانية-الزمنية عبر انتباه متكرر (stacked attentions) وتقديم أداءً أفضل بفعالية أعلى. نبدأ بعرض مُحَوِّل الفيديو القياسي (vanilla video transformer)، ونُظهر أن وحدة المحول قادرة على تنفيذ نمذجة مكانية-زمنية مباشرة من الصور الخام (raw pixels)، ولكن بتكاليف ذاكرة عالية جدًا. ثم نقدّم VidTr الذي يقلّل من تكلفة الذاكرة بنسبة 3.3 مرة مع الحفاظ على نفس الأداء. ولتحسين النموذج أكثر، نقترح تقنية تجميع القيمة المعيارية (standard deviation based topK pooling) للانتباه ($pool_{topK_std}$)، التي تقلّل من الحسابات من خلال استبعاد الميزات غير المفيدة على طول البُعد الزمني. يحقّق VidTr أداءً متقدّمًا في مجال التصنيف الفيديو على خمسة مجموعات بيانات شائعة الاستخدام، مع متطلبات حسابية أقل، مما يُظهر كفاءة وفعالية تصميمنا. وأخيرًا، تُظهر تحليل الأخطاء والتصورات أن VidTr يتميّز بشكل خاص في توقع الإجراءات التي تتطلب استدلالًا زمنيًا طويل الأمد.