التحليل المرجعي للكائنات في الفيديو متعدد الحدود الموجه بالطيف

تستخرج تقنيات التجزئة الحالية للكائنات في الفيديو المرجعي (R-VOS) نوى شرطية من السمات البصرية-اللغوية المشفرة (عالية الدقة منخفضة) لتمييز السمات المُفكَّكة عالية الدقة. ووجدنا أن هذا يسبب انحرافًا كبيرًا في السمات، مما يُعَقِّد على النوى التمييزية اكتشافه أثناء الحساب التصاعدي. وهذا يؤثر سلبًا على قدرة النوى التمييزية. ولحل مشكلة الانحراف هذه، نقترح نهجًا يُدعى "الذكاء الطيفي متعدد الحُدود" (SgMg)، الذي يُجري التمييز مباشرة على السمات المشفرة، ويستخدم التفاصيل البصرية لتحسين الأقنعة بشكل إضافي. علاوةً على ذلك، نقترح "دمج العوامل المتعددة الوسائط الموجه بالطيف" (SCF) لتنفيذ تفاعلات عالمية داخل الإطار في المجال الطيفي، بهدف تمثيل متعدد الوسائط فعّال. وأخيرًا، نوسع نموذج SgMg ليُنفِّذ التجزئة متعددة الكائنات في الفيديو المرجعي (multi-object R-VOS)، وهو نموذج جديد يتيح التمييز المتزامن لكائنات متعددة في الفيديو. وهذا لا يُسرّع عملية R-VOS فحسب، بل يجعلها أكثر عملية أيضًا. أظهرت التجارب الواسعة أن SgMg يحقق أداءً من الدرجة الأولى على أربع مجموعات بيانات معيارية للفيديو، متفوّقًا على أقرب منافس بنسبة 2.8% على مجموعة بيانات Ref-YouTube-VOS. ويساهم النموذج الموسّع لـ SgMg في تمكين التجزئة متعددة الكائنات، مع تسريع الأداء بحوالي ثلاث مرات مع الحفاظ على أداء مرضٍ. يمكن الاطلاع على الكود عبر الرابط: https://github.com/bo-miao/SgMg.