تعلم تقسيم الأشياء في الفيديو من الصور الثابتة

مستوحدين من التقدم الحديث في تقسيم النماذج وتعقب الأشياء باستخدام التعلم العميق، نقدم مشكلة تقسيم الأشياء في الفيديو كمفهوم لتقسيم النماذج الموجه. يعمل نموذجنا على أساس الإطار الواحد، موجهاً بالنتائج من الإطار السابق نحو الشيء المطلوب في الإطار التالي. نوضح أن بإمكان استخدام شبكة تلافيفية تم تدريبها باستخدام الصور الثابتة فقط تمكين تقسيم دقيق للأشياء في الفيديوهات. العنصر الرئيسي في نهجنا هو الجمع بين استراتيجيات التعلم خارج الخط (offline) والتعلم عبر الخط (online)، حيث تقوم الأولى بإنتاج قناع مُعَدّل من تقدير الإطار السابق، بينما تسمح الثانية بالتقاط مظهر النموذج الخاص للشيء. يمكن لطريقتنا التعامل مع أنواع مختلفة من ملاحظات الإدخال: صناديق الحدود والقطع، بالإضافة إلى إمكانية دمج عدة إطارات مُشَرَّحة، مما يجعل النظام مناسباً لتطبيقات متنوعة. نحصل على نتائج تنافسية على ثلاثة مجموعات بيانات مختلفة، بشكل مستقل عن نوع ملاحظات الإدخال المستخدمة.