MPG-SAM 2: تكييف SAM 2 باستخدام الأولويات التوضيحية والسياق العالمي لتقسيم الأشياء في الفيديو بالرجوع إليها

يهدف تقسيم الأشياء في الفيديو بالرجوع إلى النص (RVOS) إلى تقسيم الأشياء في الفيديو وفقًا للوصف النصي، مما يتطلب دمج المعلومات متعددة الوسائط وإدراك الديناميكيات الزمنية. أثبت نموذج تقسيم أي شيء 2 (SAM 2) فعاليته الكبيرة في مهام التقسيم الفيديوي المختلفة. ومع ذلك، فإن تطبيقه على RVOS غير المتصل يواجه تحديات بسبب تحويل النص إلى تعليمات فعالة وعدم وجود وعي سياقي عالمي. في هذا البحث، نقترح إطارًا جديدًا لـ RVOS يُسمى MPG-SAM 2 لمعالجة هذه التحديات. بصفة خاصة، يستخدم MPG-SAM 2 مُشفِّر متعدد الوسائط موحدًا لترميز الخصائص الفيديوية والنصية معًا، مما ينتج تمثيلات فيديو ونص متماثلة معانيًا بالإضافة إلى رموز فئات متعددة الوسائط. يستخدم جهاز إنشاء الأولوية للقناع التمثيلات الفيديوية ورموز الفئات لإنشاء قناع افتراضي للأهداف والسياق العالمي. يتم تغذية هذه القناعات إلى مُشفِّر التعليمات كتعليمات كثيفة مع رموز فئات متعددة الوسائط كتعليمات نادرة لتوليد تعليمات دقيقة لـ SAM 2. لتقديم رؤية عالمية لنظام SAM 2 عبر الإنترنت، نقدم جامعًا تاريخيًا عالميًا هرميًا، والذي يتيح لـ SAM 2 جمع المعلومات العالمية والتاريخية للأهداف على مستويي البكسل والأشياء، مما يعزز تمثيل الهدف والتوافق الزمني. تظهر التجارب الموسعة على عدة مقاييس لـ RVOS تفوق MPG-SAM 2 وفعالية الوحدات المقترحة لدينا.