اكتشاف الأشياء البارزة في الفيديو باستخدام التسميات الوهمية شبه المشرفة

الكشف عن الكائنات البارزة في الفيديو باستخدام التعلم العميق حقق مؤخرًا نجاحًا كبيرًا، حيث تفوق أداؤه بشكل كبير على أي طرق غير مراقبة أخرى. ومع ذلك، تعتمد النهج القائمة على البيانات الحالية بشكل كبير على كمية كبيرة من الإطارات المرئية للفيديو المصححة بالبикسلات لإنتاج هذه النتائج الواعدة. في هذا البحث، نتناول مهمة الكشف عن الكائنات البارزة في الفيديو بنصف إشراف باستخدام العلامات الزائفة (pseudo-labels). بوجه خاص، نقدم جهاز كشف فعال عن البارزات في الفيديو يتكون من شبكة تحسين فضائي ووحدة زمانية-فضائية. استنادًا إلى نفس شبكة التحسين والبيانات الحركية من حيث الجريان البصري (optical flow)، نقترح أيضًا طريقة جديدة لتوليد العلامات الزائفة على مستوى البكسل من الإطارات المصححة بشكل متباعد. من خلال استخدام العلامات الزائفة المُنشَأة مع جزء من التصحيحات اليدوية، يتعلم جهاز كشفنا عن البارزات في الفيديو الدلائل الفضائية والزمانية لكلٍ من الاستدلال بالتباين وتعزيز التجانس، مما يؤدي إلى إنتاج خرائط بارزة دقيقة. تظهر النتائج التجريبية أن طريقة الإشراف شبه الكامل التي اقترحناها تتفوق بشكل كبير حتى على جميع الأساليب الرائدة المُشرف عليها بالكامل عبر ثلاثة مقاييس عامة لـ VOS و DAVIS و FBMS.