HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج القابلة للتكيف زمنيًا للفهم الفعّال للفيديو

Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Yingya Zhang Ziwei Liu Marcelo H. Ang Jr

الملخص

تُستخدم التباديل المكانية على نطاق واسع في العديد من النماذج العميقة للفيديو. وتكمن الفرضية الأساسية وراءها في التماثل المكاني-الزمني، أي استخدام أوزان مشتركة لكل موقع في الإطارات المختلفة. يقدم هذا العمل تباديلًا زمنية مُعدَّلة (TAdaConv) لفهم الفيديو، ويُظهر أن ضبط الأوزان التكيفية على طول البُعد الزمني هو طريقة فعّالة لتمكين نمذجة الديناميكيات الزمنية المعقدة في الفيديو. بشكل خاص، تمنح TAdaConv التباديل المكانية قدرات نمذجة زمنية من خلال ضبط أوزان التبديل لكل إطار بناءً على سياقه المكاني المحلي والعام. مقارنةً بالعمليات الحالية لنمذجة الزمن، تُعد TAdaConv أكثر كفاءة لأنها تعمل على نوى التباديل بدلًا من الميزات، حيث تكون أبعاد النوى أقل بمرتبة واحدة من الترددات المكانية. علاوةً على ذلك، يؤدي ضبط نوى التباديل إلى زيادة قدرة النموذج. بناءً على هذه العملية القابلة للإدخال بسهولة (TAdaConv) وتمديدها (TAdaConvV2)، نُنشئ وحدات TAdaBlocks لتمكين نماذج ConvNeXt وVision Transformer من امتلاك قدرات زمنية قوية. تُظهر النتائج التجريبية أن نماذج TAdaConvNeXtV2 وTAdaFormer تنافس النماذج الحالية الأفضل في مجالات متعددة لفهم الفيديو. تم إصدار الكود والنماذج لدينا عبر الرابط التالي: https://github.com/alibaba-mmai-research/TAdaConv.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp