فيتا: التجزئة الوضعية للفيديو من خلال ارتباط الرموز الكائنية

نقدم نموذجًا جديدًا للفصل البصري للInstances في الفيديو (VIS) بشكل غير مباشر، مستندًا إلى الفرضية القائلة بأن المعلومات الموجهة نحو الكائنات بشكل صريح يمكن أن تكون مؤشرًا قويًا لفهم سياق التسلسل بأكمله. ولتحقيق ذلك، نقترح VITA، وهي بنية بسيطة مبنية فوق نموذج شائع للانقسام البصري للInstances في الصور يستند إلى مُحَوِّل (Transformer). بشكل محدد، نستخدم مُكتشف الكائنات في الصور كوسيلة لاستخلاص السياقات المخصصة للكائنات وتحويلها إلى رموز كائنات (object tokens). تُحقِّق VITA فهمًا على مستوى الفيديو من خلال ربط رموز الكائنات على مستوى الإطارات دون استخدام ميزات المُقدِّم الزماني-المكاني (spatio-temporal backbone). وباستخدام المعلومات المختزلة لبناء علاقات فعّالة بين الكائنات، تحقق VITA أفضل الأداء على معايير VIS باستخدام مُقدِّم ResNet-50: 49.8 AP و45.7 AP على YouTube-VIS 2019 و2021، و19.6 AP على OVIS. علاوةً على ذلك، وبفضل هيكلها القائم على رموز الكائنات والذي يُفصل عن ميزات المُقدِّم، تُظهر VITA مزايا عملية متعددة لم تُستكشف من قبل في الطرق السابقة لـ VIS غير المباشرة — مثل التعامل مع مقاطع فيديو طويلة وعالية الدقة باستخدام بطاقة رسوميات واحدة، وثبات (Freezing) مُكتشف الإطارات المدرب على بيانات الصور. يمكن الوصول إلى الكود عبر الرابط: https://github.com/sukjunhwang/VITA.