TASED-Net: شبكة الترميز والتفكيك المكانية التي تجمع البيانات الزمنية لاكتشاف البارزية في الفيديو

تعد TASED-Net معمارية شبكة عصبية تكاملية ثلاثية الأبعاد (3D fully-convolutional network) للكشف عن البارزة في الفيديو (video saliency detection). تتكون من مكونين رئيسيين: أولاً، تقوم شبكة الترميز (encoder network) باستخراج الخصائص المكانية والزمانية ذات الدقة المنخفضة من مقطع إدخال يحتوي على عدة إطارات متتابعة، ثم يقوم الشبكة التنبؤية اللاحقة (prediction network) بفك تشفير هذه الخصائص المكانياً مع جمع جميع المعلومات الزمنية. نتيجة لذلك، يتم إنتاج خريطة تنبؤ واحدة من مقطع إدخال يحتوي على عدة إطارات. يمكن التنبؤ بخرائط البارزة الإطارية عن طريق تطبيق TASED-Net بطريقة نافذة منزلقة على الفيديو. يفترض النهج المقترح أن يمكن التنبؤ بخريطة البارزة لأي إطار بالنظر إلى عدد محدود من الإطارات السابقة. تؤكد نتائج التجارب الواسعة التي أجريناها في مجال الكشف عن البارزة في الفيديو هذا الافتراض وتبين أن نموذجنا التكاملي بالكامل مع طريقة جمع المعلومات الزمنية فعال. حققت TASED-Net أداءً أفضل بكثير من الأساليب الرائدة سابقًا في جميع الثلاثة مجموعات بيانات رئيسية والكبيرة الحجم للكشف عن البارزة في الفيديو: DHF1K، هوليوود2 (Hollywood2)، و UCFSports. بعد تحليل النتائج بشكل نوعي، نلاحظ أن نموذجنا أفضل بشكل خاص في التركيز على الأشياء المتحركة البارزة.