تنبؤ البارزة في الفيديو باستخدام شبكة تطابق زماني-مكانية محسنة

بسبب مجموعة متنوعة من الحركات عبر الإطارات المختلفة، فإن تعلم تمثيل فضائي زمني فعال للتنبؤ الدقيق بالعناصر البارزة في الفيديو (VSP) يمثل تحديًا كبيرًا. لمعالجة هذه المشكلة، قمنا بتطوير شبكة توحيد خصائص فضائية زمنية فعالة مخصصة لـ VSP، والتي تتكون بشكل أساسي من شبكتين فرعيتين رئيسيتين: شبكة التوحيد المتعددة المقاييس باستخدام التحويلات المتشوهة (MDAN) وشبكة الذاكرة طويلة المدى قصيرة المدى ثنائية الاتجاه باستخدام التحويلات التلافيفية (Bi-ConvLSTM). تقوم MDAN بتعلم كيفية توحيد خصائص الإطارات المجاورة مع الإطار المرجعي بطريقة من الخشن إلى الدقيق، مما يمكنها من التعامل بشكل جيد مع مختلف الحركات. وبشكل أكثر تحديدًا، تمتلك MDAN هيكلية هرمية للخصائص تتبع أولاً استخدام التحويلات التلافيفية المتشوهة (Dconv) لتوحيد الخصائص ذات الدقة المنخفضة عبر الإطارات، ثم تقوم بتجميع الخصائص الموحدة لتوحيد الخصائص ذات الدقة العالية، مما يعزز الخصائص تدريجيًا من الأعلى إلى الأسفل. يتم بعد ذلك إدخال نتاج MDAN إلى Bi-ConvLSTM للتعزيز الأكثر، حيث يتم التقاط المعلومات الزمنية طويلة الأمد المفيدة في اتجاهات التوقيت الأمامي والخلفي لتوجيه التنبؤ بتحول التركيز بشكل فعال تحت تحولات المشهد المعقدة. وأخيرًا، يتم تفكيك الخصائص المعززة لإنشاء خريطة العناصر البارزة المتوقعة. يتم تدريب النموذج المقترح بطريقة شاملة دون أي معالجة ما بعد معقدة. أظهرت التقييمات الواسعة على أربع مجموعات بيانات مرجعية لـ VSP أن الطريقة المقترحة حققت أداءً مفضلًا مقابل أفضل الطرق الحالية. سيتم إطلاق الكود المصدر وكافة النتائج.