HyperAIHyperAI
منذ 14 أيام

معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه

Juan-Manuel Perez-Rua, Brais Martinez, Xiatian Zhu, Antoine Toisoul, Victor Escorcia, Tao Xiang
معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه
الملخص

إن نمذجة الانتباه في الفيديو أمر ضروري للتعرف على الحركات في مقاطع الفيديو غير المُحددة بسبب المعلومات الغنية لكن المتكررة عبر الفضاء والزمن. ومع ذلك، فإن إدخال الانتباه في الشبكة العصبية العميقة للتعرف على الحركات يواجه تحديين رئيسيين. أولاً، يحتاج وحدة انتباه فعّالة إلى تعلُّم ما يجب التركيز عليه (الكائنات وأنماط الحركة المحلية)، وأين (مكانيًا)، ومتى (زمنيًا). ثانيًا، يجب أن تكون وحدة انتباه الفيديو فعّالة، نظرًا لأن نماذج التعرف على الحركات الحالية تعاني بالفعل من تكاليف حسابية عالية. ولحل هذين التحديين معًا، تم اقتراح وحدة انتباه فيديو جديدة تُعرف بـ What-Where-When (W3). وتنطلق هذه الوحدة عن البدائل الحالية من خلال نمذجة الجوانب الثلاثة لانتباه الفيديو بشكل متماسك. وتميّز هذه الوحدة بكونها فعّالة جدًا من خلال تحليل بيانات الميزات الفيديو عالية الأبعاد إلى فضاءات ذات معنى منخفضة الأبعاد (متجه أحادي البعد للـ "ما" وتمثيلات مكانيّة ثنائية الأبعاد للـ "أين")، تليها عملية استنتاج انتباه زمني خفيف الوزن. وأظهرت التجارب الواسعة أن نموذج الانتباه هذا يحقق تحسينات كبيرة على النماذج الحالية للتعرف على الحركات، ويحقق أداءً متفوّقًا جديدًا على عدد من المعايير (benchmarks).

معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه | أحدث الأوراق البحثية | HyperAI