الاستقطاب الفعلي للفيديو للInstances باستخدام استعلامات التتبع

في الآونة الأخيرة، حققت الطرق القائمة على النموذج التحويلي (Transformer-based) نتائج مذهلة في مهام التجزئة الوضعية للفيديوهات (Video Instance Segmentation - VIS). ومع ذلك، فإن معظم هذه الطرق المتميزة تعمل بطريقة غير حية (offline)، حيث تُعالج مقطع الفيديو بأكمله دفعة واحدة لتوليد أصناف الأقنعة الوضعية. وهذا يجعلها غير قادرة على التعامل مع مقاطع الفيديو الطويلة التي تظهر في مجموعات بيانات الفيديو التحديّة الحديثة مثل UVO وOVIS. نقترح نموذجًا متكاملًا للجزء الواقعي للفيديو القائم على التحويل، يعمل بشكل كامل في الوقت الفعلي (fully online)، ويحقق أداءً مماثلًا للطرق الرائدة غير الحية على معيار YouTube-VIS 2019، ويفوقها بشكل ملحوظ على مجموعتي البيانات UVO وOVIS. يُسمى هذا النهج بـ "ROVIS" (التحلّيل الواقعي المقاوم للفيديوهات)، والذي يُعدّّ تطويرًا لنموذج Mask2Former لتحديد الأصناف في الصور، من خلال إدخال "استفسارات التتبع" (track queries) – وهي آلية خفيفة الوزن لنقل معلومات التتبع من إطار إلى آخر، أُدخلت أول مرة في أسلوب TrackFormer لمهام تتبع الكائنات المتعددة. ونُظهر أن، عند دمج هذه الاستفسارات مع بنية قوية للفصل الصوتي، يمكن أن تُظهر دقة مذهلة دون أن تُحدَّد بمقاطع الفيديو القصيرة.