HyperAIHyperAI
منذ 17 أيام

TAda! تباينات متكيفة زمنيًا لفهم الفيديو

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr
TAda! تباينات متكيفة زمنيًا لفهم الفيديو
الملخص

تُستخدم التلافيف الفضائية على نطاق واسع في العديد من النماذج العميقة للفيديوهات. وتكمن الفرضية الأساسية وراءها في الازدواجية الفضائية-الزمنية، أي استخدام أوزان مشتركة لكل موقع في الإطارات المختلفة. تقدم هذه الدراسة تلافيفاً زمنياً-متكيفاً (TAdaConv) لفهم الفيديو، والتي تُظهر أن تعديل الأوزان بشكل تكيفي على طول البُعد الزمني يُعد طريقة فعّالة لتسهيل نمذجة الديناميكيات الزمنية المعقدة في الفيديوهات. بشكل خاص، يُمكّن TAdaConv التلافيف الفضائية من القدرة على النمذجة الزمنية من خلال تعديل أوزان التلافيف لكل إطار بناءً على السياق الزمني المحلي والكلي لهذا الإطار. مقارنةً بالعمليات الزمنية السابقة، يُعد TAdaConv أكثر كفاءة لأنه يعمل على نوى التلافيف بدلًا من الميزات، حيث تكون أبعاد النوى أقل بمرتبة من التفاصيل الفضائية. علاوةً على ذلك، يُساهم تعديل نوى التلافيف في زيادة قدرة النموذج. تم بناء الشبكتين TAda2D وTAdaConvNeXt عن طريق استبدال التلافيف ثنائية الأبعاد في ResNet وConvNeXt بـ TAdaConv، ما أدى إلى أداء مُكافئ أو أفضل مقارنةً بالأساليب الرائدة في مجالات متعددة للتمييز والتحديد الفعلي للإجراءات في الفيديو. كما أظهرنا أن TAdaConv، باعتباره عملية قابلة للإدخال الفوري وبتكلفة حسابية ضئيلة، يمكنه تحسين العديد من النماذج الحالية للفيديو بشكل فعّال وبمدى ملحوظ.

TAda! تباينات متكيفة زمنيًا لفهم الفيديو | أحدث الأوراق البحثية | HyperAI