HyperAIHyperAI

Command Palette

Search for a command to run...

TAda! تباينات متكيفة زمنيًا لفهم الفيديو

Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Mingqian Tang Ziwei Liu Marcelo H. Ang Jr

الملخص

تُستخدم التلافيف الفضائية على نطاق واسع في العديد من النماذج العميقة للفيديوهات. وتكمن الفرضية الأساسية وراءها في الازدواجية الفضائية-الزمنية، أي استخدام أوزان مشتركة لكل موقع في الإطارات المختلفة. تقدم هذه الدراسة تلافيفاً زمنياً-متكيفاً (TAdaConv) لفهم الفيديو، والتي تُظهر أن تعديل الأوزان بشكل تكيفي على طول البُعد الزمني يُعد طريقة فعّالة لتسهيل نمذجة الديناميكيات الزمنية المعقدة في الفيديوهات. بشكل خاص، يُمكّن TAdaConv التلافيف الفضائية من القدرة على النمذجة الزمنية من خلال تعديل أوزان التلافيف لكل إطار بناءً على السياق الزمني المحلي والكلي لهذا الإطار. مقارنةً بالعمليات الزمنية السابقة، يُعد TAdaConv أكثر كفاءة لأنه يعمل على نوى التلافيف بدلًا من الميزات، حيث تكون أبعاد النوى أقل بمرتبة من التفاصيل الفضائية. علاوةً على ذلك، يُساهم تعديل نوى التلافيف في زيادة قدرة النموذج. تم بناء الشبكتين TAda2D وTAdaConvNeXt عن طريق استبدال التلافيف ثنائية الأبعاد في ResNet وConvNeXt بـ TAdaConv، ما أدى إلى أداء مُكافئ أو أفضل مقارنةً بالأساليب الرائدة في مجالات متعددة للتمييز والتحديد الفعلي للإجراءات في الفيديو. كما أظهرنا أن TAdaConv، باعتباره عملية قابلة للإدخال الفوري وبتكلفة حسابية ضئيلة، يمكنه تحسين العديد من النماذج الحالية للفيديو بشكل فعّال وبمدى ملحوظ.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp