F2Net: التعلم على التركيز على الخلفية للانفصال الكائني غير المُراقب لل objetos في الفيديو

على الرغم من التقدم الكبير الذي أحرزته الطرق القائمة على التعلم العميق في تقسيم كائنات الفيديو غير المراقب، تظل السيناريوهات الصعبة (مثل التشابه البصري، التغطية، وتغير المظهر) غير مُعالَجة بشكل جيد. ولتخفيف هذه التحديات، نقترح شبكة جديدة تُسمى "F2Net" (الشبكة التي تركز على الخلفية)، والتي تستكشف التفاصيل داخل الإطار وبين الإطارات بالنسبة للكائنات الأمامية، مما يؤدي إلى تحسين فعّال لأداء التقسيم. بشكل محدد، تتكون الشبكة المقترحة من ثلاث مكونات رئيسية: وحدة الترميز المزدوج (Siamese Encoder Module)، ووحدة تشتت المظهر الموجهة بالمركز (Center Guiding Appearance Diffusion Module)، ووحدة دمج المعلومات الديناميكية (Dynamic Information Fusion Module). أولاً، نستخدم وحدة ترميز مزدوجة لاستخراج تمثيلات الميزات للإطارات الزوجية (الإطار المرجعي والإطار الحالي). ثم، تم تصميم وحدة تشتت المظهر الموجهة بالمركز لاستكشاف الميزات بين الإطارات (التطابق الكثيف بين الإطار المرجعي والإطار الحالي)، والميزات داخل الإطار (التطابق الكثيف داخل الإطار الحالي)، بالإضافة إلى الميزة الشكلية الأصلية للإطار الحالي. وبشكل خاص، قمنا بإنشاء فرع تنبؤ المراكز لتقدير موقع مركز الكائن الأمامي في الإطار الحالي، واستخدمنا معلومات النقطة المركزية كمُوجّه مكاني لتعزيز استخراج الميزات بين الإطارات وداخلها، وبالتالي تتركز ممثلات الميزات بشكل كبير على الكائنات الأمامية. وأخيرًا، اقترحنا وحدة دمج المعلومات الديناميكية لاختيار تلقائي للميزات الأكثر أهمية من خلال ثلاث مستويات مختلفة من الميزات المذكورة أعلاه. أظهرت التجارب الواسعة على مجموعات بيانات DAVIS2016 وYoutube-Object وFBMS أداءً من الدرجة الأولى (state-of-the-art) للشبكة المقترحة F2Net، مع تحسين ملحوظ.