HyperAIHyperAI

Command Palette

Search for a command to run...

معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

الملخص

إن نمذجة الانتباه في الفيديو أمر ضروري للتعرف على الحركات في مقاطع الفيديو غير المُحددة بسبب المعلومات الغنية لكن المتكررة عبر الفضاء والزمن. ومع ذلك، فإن إدخال الانتباه في الشبكة العصبية العميقة للتعرف على الحركات يواجه تحديين رئيسيين. أولاً، يحتاج وحدة انتباه فعّالة إلى تعلُّم ما يجب التركيز عليه (الكائنات وأنماط الحركة المحلية)، وأين (مكانيًا)، ومتى (زمنيًا). ثانيًا، يجب أن تكون وحدة انتباه الفيديو فعّالة، نظرًا لأن نماذج التعرف على الحركات الحالية تعاني بالفعل من تكاليف حسابية عالية. ولحل هذين التحديين معًا، تم اقتراح وحدة انتباه فيديو جديدة تُعرف بـ What-Where-When (W3). وتنطلق هذه الوحدة عن البدائل الحالية من خلال نمذجة الجوانب الثلاثة لانتباه الفيديو بشكل متماسك. وتميّز هذه الوحدة بكونها فعّالة جدًا من خلال تحليل بيانات الميزات الفيديو عالية الأبعاد إلى فضاءات ذات معنى منخفضة الأبعاد (متجه أحادي البعد للـ "ما" وتمثيلات مكانيّة ثنائية الأبعاد للـ "أين")، تليها عملية استنتاج انتباه زمني خفيف الوزن. وأظهرت التجارب الواسعة أن نموذج الانتباه هذا يحقق تحسينات كبيرة على النماذج الحالية للتعرف على الحركات، ويحقق أداءً متفوّقًا جديدًا على عدد من المعايير (benchmarks).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه | مستندات | HyperAI