HyperAIHyperAI
منذ 2 أشهر

الفصل غير المشرف للأشياء في الفيديو عبر شبكة ذاكرة النماذج الأولية

Minhyeok Lee; Suhwan Cho; Seunghoon Lee; Chaewon Park; Sangyoun Lee
الفصل غير المشرف للأشياء في الفيديو عبر شبكة ذاكرة النماذج الأولية
الملخص

يهدف التقطيع غير المشرف للكائنات في الفيديو إلى تقطيع كائن الهدف في الفيديو دون وجود قناع حقيقي (ground truth mask) في الإطار الأول. يعتبر هذا المهمة صعبة حيث يتطلب استخراج الخصائص لأكثر الكائنات شيوعًا وبروزًا داخل سلسلة الفيديو. يمكن حل هذه الصعوبة باستخدام معلومات الحركة مثل التدفق البصري (optical flow)، ولكن استخدام المعلومات فقط بين الإطارات المجاورة يؤدي إلى ربط ضعيف بين الإطارات البعيدة وأداء سيء. لحل هذه المشكلة، نقترح هندسة شبكة ذاكرة نموذجية جديدة. يُستخرج النموذج المقترح بشكل فعال المعلومات RGB ومعلومات الحركة من خلال استخراج نماذج مكونات مستندة إلى السوبربيكسل (superpixel-based component prototypes) من صور RGB الدخلية وخرائط التدفق البصري. بالإضافة إلى ذلك، يقوم النموذج بتقييم فائدة نماذج المكونات في كل إطار بناءً على خوارزمية تعلم ذاتي ويحفظ بصفة انتقائية أكثر النماذج فائدة في الذاكرة ويتم التخلص من النماذج القديمة. نستخدم النماذج الموجودة في بنك الذاكرة لتنبؤ قناع الإطارات الاستفسارية التالية، مما يعزز الارتباط بين الإطارات البعيدة للمساعدة في تنبؤ القناع بدقة. تم تقييم طريقتنا على ثلاثة مجموعات بيانات، حيث حققت أداءً متقدمًا على مستوى الدولة (state-of-the-art performance). نثبت فعالية النموذج المقترح من خلال دراسات تقليص مختلفة (ablation studies).

الفصل غير المشرف للأشياء في الفيديو عبر شبكة ذاكرة النماذج الأولية | أحدث الأوراق البحثية | HyperAI