HyperAIHyperAI

Command Palette

Search for a command to run...

VidTr: نموذج تحويلي للفيديو بدون تآثرات

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

الملخص

نُقدِّم نموذج "مُحَوِّل الفيديو" (VidTr) المُستند إلى الانتباه المنفصل للتصنيف الفيديو. مقارنةً بالشبكات ثلاثية الأبعاد الشائعة الاستخدام، يتمكّن VidTr من تجميع المعلومات المكانية-الزمنية عبر انتباه متكرر (stacked attentions) وتقديم أداءً أفضل بفعالية أعلى. نبدأ بعرض مُحَوِّل الفيديو القياسي (vanilla video transformer)، ونُظهر أن وحدة المحول قادرة على تنفيذ نمذجة مكانية-زمنية مباشرة من الصور الخام (raw pixels)، ولكن بتكاليف ذاكرة عالية جدًا. ثم نقدّم VidTr الذي يقلّل من تكلفة الذاكرة بنسبة 3.3 مرة مع الحفاظ على نفس الأداء. ولتحسين النموذج أكثر، نقترح تقنية تجميع القيمة المعيارية (standard deviation based topK pooling) للانتباه (pooltopKstdpool_{topK_std}pooltopKstd)، التي تقلّل من الحسابات من خلال استبعاد الميزات غير المفيدة على طول البُعد الزمني. يحقّق VidTr أداءً متقدّمًا في مجال التصنيف الفيديو على خمسة مجموعات بيانات شائعة الاستخدام، مع متطلبات حسابية أقل، مما يُظهر كفاءة وفعالية تصميمنا. وأخيرًا، تُظهر تحليل الأخطاء والتصورات أن VidTr يتميّز بشكل خاص في توقع الإجراءات التي تتطلب استدلالًا زمنيًا طويل الأمد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp