مُحَوِّل قناع الفيديو للحصول على تجزئة فعالة عالية الجودة للفيديو

رغم التقدم السريع الذي شهدته تقنيات التجزئة المرئية للهوية (Video Instance Segmentation - VIS)، تواجه النماذج الحالية صعوبات في توقع أقنعة عالية الجودة تتميز بتفاصيل حدود دقيقة. علاوة على ذلك، غالبًا ما تتغير التجزئيات المتنبأ بها عبر الزمن، مما يشير إلى أن المؤشرات الزمنية للاتساق تُهمل أو لا تُستغل بشكل كامل. في هذا البحث، نسعى إلى معالجة هذه المشكلات بهدف تحقيق تنبؤات بأقنعة مفصلة للغاية وأكثر استقرارًا زمنيًا في تجزئة الفيديو للهوية. نقترح أولًا طريقة تُسمى "مُحسّن القناع الفيديوي" (Video Mask Transfiner - VMT)، التي تتمتع بقدرة على الاستفادة من الميزات عالية الدقة والدقة العالية من خلال هيكل فعال جدًا لمحول الفيديو. يُحدد VMT مناطق نادرة ومحفوفة بالمخاطر في الفضاء والزمن لكل مسار في القطعة المرئية، ثم يتم تحسينها باستخدام معلومات محلية ومستوى الكائن. ثانيًا، نحدد أن التصنيفات الحدودية الخشنة المتوفرة في مجموعة بيانات YouTube-VIS الشهيرة تمثل عائقًا رئيسيًا. بناءً على بنية VMT، نصمم إذًا منهجية تلقائية لتحسين التصنيفات من خلال التدريب التكراري والتصحيح الذاتي. ولوضع معيار لتقييم التنبؤات بأقنعة عالية الجودة في VIS، نقدم مجموعة بيانات جديدة تُسمى HQ-YTVIS، والتي تتضمن مجموعة اختبار تم إعادة ترميزها يدويًا، وبيانات تدريب تم تحسينها تلقائيًا. ونقارن أداء VMT مع أحدث النماذج المتميزة على مجموعة HQ-YTVIS، فضلًا عن مجموعات بيانات YouTube-VIS، OVIS، وBDD100K MOTS. تُظهر النتائج التجريبية بوضوح كفاءة وفعالية طريقة VMT في تجزئة الكائنات المعقدة والديناميكية، من خلال التقاط التفاصيل الدقيقة بدقة.