Command Palette
Search for a command to run...
معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه
معرفة ماذا، أين، ومتى تنظر: نمذجة فعالة للإجراءات في الفيديو باستخدام الانتباه
Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang
الملخص
إن نمذجة الانتباه في الفيديو أمر ضروري للتعرف على الحركات في مقاطع الفيديو غير المُحددة بسبب المعلومات الغنية لكن المتكررة عبر الفضاء والزمن. ومع ذلك، فإن إدخال الانتباه في الشبكة العصبية العميقة للتعرف على الحركات يواجه تحديين رئيسيين. أولاً، يحتاج وحدة انتباه فعّالة إلى تعلُّم ما يجب التركيز عليه (الكائنات وأنماط الحركة المحلية)، وأين (مكانيًا)، ومتى (زمنيًا). ثانيًا، يجب أن تكون وحدة انتباه الفيديو فعّالة، نظرًا لأن نماذج التعرف على الحركات الحالية تعاني بالفعل من تكاليف حسابية عالية. ولحل هذين التحديين معًا، تم اقتراح وحدة انتباه فيديو جديدة تُعرف بـ What-Where-When (W3). وتنطلق هذه الوحدة عن البدائل الحالية من خلال نمذجة الجوانب الثلاثة لانتباه الفيديو بشكل متماسك. وتميّز هذه الوحدة بكونها فعّالة جدًا من خلال تحليل بيانات الميزات الفيديو عالية الأبعاد إلى فضاءات ذات معنى منخفضة الأبعاد (متجه أحادي البعد للـ "ما" وتمثيلات مكانيّة ثنائية الأبعاد للـ "أين")، تليها عملية استنتاج انتباه زمني خفيف الوزن. وأظهرت التجارب الواسعة أن نموذج الانتباه هذا يحقق تحسينات كبيرة على النماذج الحالية للتعرف على الحركات، ويحقق أداءً متفوّقًا جديدًا على عدد من المعايير (benchmarks).