التعلم من تجزئة كائنات الفيديو من مقاطع فيديو غير مُعلَّمة

نُقدِّم طريقة جديدة لفصل كائنات الفيديو (VOS) تُعالج تعلُّم أنماط الكائنات من مقاطع فيديو غير مُعلَّمة، على عكس معظم الطرق الحالية التي تعتمد بشكل كبير على بيانات مُعلَّمة واسعة النطاق. نُقدِّم إطارًا موحدًا للتعلُّم غير المُراقَب/الضعيف المُراقَب، يُسمَّى MuG، الذي يُجسِّد بشكل شامل الخصائص الجوهرية لـ VOS على مستويات دقة متعددة. يمكن أن يُسهم نهجنا في تعميق الفهم للأنماط البصرية في VOS، ويقلل بشكل كبير من عبء التصنيف. وبفضل بنية مصممة بعناية وقدرة قوية على التعلم التمثيلي، يمكن تطبيق النموذج المُتعلِّم في بيئات VOS المتنوعة، بما في ذلك فصل الكائنات في حالة الصفر-الانطلاق (zero-shot VOS) على مستوى الكائن، وفَصْل الكائنات على مستوى المثيل، وفَصْل الكائنات في حالة الانطلاق الواحد (one-shot VOS). تُظهر التجارب أداءً واعدًا في هذه البيئات، كما تُظهر إمكانات MuG في الاستفادة من البيانات غير المُعلَّمة لتحسين دقة الفصل بشكل أكبر.