نحو تقسيم كائنات الفيديو بشكل متين باستخدام معايرة الكائن التكيفية

في عصر الفيديو المزدهر، تجذب تقسيم الفيديو اهتمامًا بحثيًا متزايدًا في مجتمع الوسائط المتعددة. يهدف التقسيم شبه المشرف للكائنات في الفيديو (VOS) إلى تقسيم الكائنات في جميع الإطارات الهدف لفيديو معين، بالاعتماد على أقنعة كائنات الإطارات المرجعية المُشَاهَدَة. تعتمد معظم الأساليب الحالية على بناء ارتباطات بكسل بين الإطار المرجعي والإطار الهدف ومن ثم تنفيذ تتبع بكسل للحصول على أقنعة الأهداف. ومع ذلك، فإن هذه الأساليب التي تعتمد على مستوى البكسل تجعل التتبع عرضة للاضطرابات وحتى غير قادر على تمييز الكائنات المشابهة. من أجل تحقيق تقسيم كائنات الفيديو الأكثر صلابة، فإن الرؤية الأساسية هي ضبط تمثيل وقناع كل كائن محدد ليكون ذو تعبير قوي ومميز. وفقًا لذلك، نقترح شبكة عميقة جديدة يمكنها بناء تمثيلات الكائنات بشكل متكيف وضبط أقنعة الكائنات لتحقيق صلابة أكبر. أولاً، نقوم ببناء تمثيلات الكائنات باستخدام طريقة التجميع التكيفي للممثل الكائني (AOP)، حيث يمثل الممثلون قطعًا ذات أشكال عشوائية على مستويات متعددة للمرجعية. ثم يتم إنشاء أقنعة النماذج الأولية بشكل أولي من خلال ارتباطات الإطار المرجعي بالإطار الهدف بناءً على AOP. بعد ذلك، يتم ضبط هذه الأقنعة الأولية بشكل أكبر من خلال تعديل الشبكة، مشروطة بتمثيلات الممثل الكائني. نحن نعزز عملية ضبط القناع المشروطة بطريقة تدريجية، حيث تتطور تمثيلات الكائن والأقنعة الأولية لتكون مميزة بشكل متكرر. تم إجراء تجارب واسعة النطاق على مقاييس التقسيم شبه المشرف للكائنات في الفيديو القياسية، YouTube-VOS-18/19 وDAVIS-17. حققت نموذجنا أفضل الأداء بين الأعمال المنشورة حاليًا، كما أنها أظهرت صلابة فائقة ضد الاضطرابات. يمكن الوصول إلى مستودع مشروعنا عبر الرابط: https://github.com/JerryX1110/Robust-Video-Object-Segmentation