النماذج القابلة للتكيف زمنيًا للفهم الفعّال للفيديو

تُستخدم التباديل المكانية على نطاق واسع في العديد من النماذج العميقة للفيديو. وتكمن الفرضية الأساسية وراءها في التماثل المكاني-الزمني، أي استخدام أوزان مشتركة لكل موقع في الإطارات المختلفة. يقدم هذا العمل تباديلًا زمنية مُعدَّلة (TAdaConv) لفهم الفيديو، ويُظهر أن ضبط الأوزان التكيفية على طول البُعد الزمني هو طريقة فعّالة لتمكين نمذجة الديناميكيات الزمنية المعقدة في الفيديو. بشكل خاص، تمنح TAdaConv التباديل المكانية قدرات نمذجة زمنية من خلال ضبط أوزان التبديل لكل إطار بناءً على سياقه المكاني المحلي والعام. مقارنةً بالعمليات الحالية لنمذجة الزمن، تُعد TAdaConv أكثر كفاءة لأنها تعمل على نوى التباديل بدلًا من الميزات، حيث تكون أبعاد النوى أقل بمرتبة واحدة من الترددات المكانية. علاوةً على ذلك، يؤدي ضبط نوى التباديل إلى زيادة قدرة النموذج. بناءً على هذه العملية القابلة للإدخال بسهولة (TAdaConv) وتمديدها (TAdaConvV2)، نُنشئ وحدات TAdaBlocks لتمكين نماذج ConvNeXt وVision Transformer من امتلاك قدرات زمنية قوية. تُظهر النتائج التجريبية أن نماذج TAdaConvNeXtV2 وTAdaFormer تنافس النماذج الحالية الأفضل في مجالات متعددة لفهم الفيديو. تم إصدار الكود والنماذج لدينا عبر الرابط التالي: https://github.com/alibaba-mmai-research/TAdaConv.