الانتباه المختلط في الفضاء والزمن لمحول الفيديو

يُركّز هذا البحث على التعرف على الفيديو باستخدام نماذج المحولات (Transformers). وقد أظهرت المحاولات الحديثة في هذا المجال نتائج واعدة من حيث دقة التعرف، لكنها أظهرت أيضًا في كثير من الحالات تحمّل أعباء حسابية كبيرة ناتجة عن إدخال نمذجة معلومات زمنية إضافية. في هذا العمل، نقترح نموذجًا لمحول الفيديو (Video Transformer) يتناسب تعقيده خطياً مع عدد الإطارات في تسلسل الفيديو، وبالتالي لا يُسبب أي عبء إضافي مقارنة بنموذج المحول القائم على الصور. لتحقيق ذلك، يستخدم نموذجنا تقريبين لانتباه الفضاء والزمن الكامل المستخدم في محولات الفيديو: (أ) يُقيّد انتباه الزمن ضمن نافذة زمنية محلية، ويستفيد من عمق المحول للحصول على تغطية زمنية كاملة لتسلسل الفيديو. (ب) يستخدم خلطًا فعالاً بين الفضاء والزمن للانتباه إلى المواقع المكانية والزمنية معًا دون إضافة أي تكلفة إضافية على نموذج الانتباه المقام فقط على المستوى المكاني. كما نُظهر كيف يمكن دمج ميكانيكيْن خفيفي الوزن جدًا لانتباه زمني عالمي، مما يوفر تحسينات إضافية في الدقة بتكلفة حسابية ضئيلة جدًا. ونُثبت أن نموذجنا يحقق دقة تعرف عالية جدًا على أبرز مجموعات بيانات التعرف على الفيديو، وفي الوقت نفسه يكون أكثر كفاءة بشكل ملحوظ من غيره من نماذج محولات الفيديو. وسيتم إتاحة الكود المصدري.