MemorySAM: تذكّر الوسائط والمعاني باستخدام نموذج التجزئة بأي شيء 2 للتجزئة المعنوية متعددة الوسائط

تركز الأبحاث على التجزئة الدلالية متعددة الوسائط (MMSS)، حيث تُستمد التنبؤات على مستوى البكسل من وسائط بصرية متعددة تم التقاطها بواسطة أجهزة استشعار متنوعة. في الآونة الأخيرة، أظهر النموذج البصري الكبير، نموذج التجزئة بأي شيء 2 (SAM2)، أداءً قوياً في التجزئة بدون تدريب مسبق (zero-shot) على الصور والفيديوهات على حد سواء. عند توسيع نطاق تطبيق SAM2 على التجزئة الدلالية متعددة الوسائط، تظهر مشكلتان رئيسيتان: 1. كيف يمكن تكييف SAM2 لمعالجة البيانات متعددة الوسائط؟ 2. كيف يمكن لـ SAM2 تحسين فهمه للدلالات؟مستوحى من الترابط بين الإطارات في الفيديوهات، نقترح اعتبار البيانات متعددة الوسائط كسلسلة من الإطارات التي تمثل نفس المشهد. تكمن الفكرة الأساسية لدينا في "تذكّر" المعلومات غير المرتبطة بالوسيلة (modality-agnostic) والـ "تذكّر" الدلالات المرتبطة بالمشهد المستهدف. لتحقيق ذلك، نطبق آليات الذاكرة في SAM2 على البيانات متعددة الوسائط لاستخلاص ميزات غير مرتبطة بالوسيلة. وفي الوقت نفسه، لتمكين التذكّر للمعرفة الدلالية، نقترح وحدة ذاكرة النماذج الدلالية (SPMM) التي تُستخدم فقط أثناء التدريب، بهدف تخزين نماذج على مستوى الفئة عبر مراحل التدريب، لتمكين SAM2 من الانتقال من التجزئة الحُدودية (instance segmentation) إلى التجزئة الدلالية (semantic segmentation). كما نفرض خسارة تكييف نموذجية (prototypical adaptation loss) بشكل تكراري بين النماذج العالمية والمحليّة لتوحيد وتحسين فهم SAM2 للدلالات.أظهرت النتائج التجريبية الواسعة أن النموذج المقترح، MemorySAM، يتفوّق على أحدث الأساليب (SoTA) بمدى كبير على كل من المعايير الاصطناعية والواقعية (65.38% على DELIVER، و52.88% على MCubeS). وسيتم الإفصاح عن الشفرة المصدرية بشكل عام.