التمييز السياقي لinstancات الفيديو

في هذا البحث، نقدم تقنية الفصل المثلي للأشياء في مقاطع الفيديو مع الوعي السياقي (Context-Aware Video Instance Segmentation - CAVIS)، وهي إطار عمل جديد مصمم لتعزيز ربط الأشياء من خلال دمج المعلومات السياقية المجاورة لكل كائن. لاستخراج واستغلال هذه المعلومات بكفاءة، نقترح مُتابِع الوعي السياقي للأمثلة (Context-Aware Instance Tracker - CAIT)، الذي يدمج البيانات السياقية المحيطة بالأمثلة مع الخصائص الأساسية للأمثلة لتحسين دقة التتبع. بالإضافة إلى ذلك، نقدم خسارة التباين المثالي بين الإطارات (Prototypical Cross-frame Contrastive - PCC)، التي تضمن الثبات في الخصائص على مستوى الكائنات عبر الإطارات، مما يعزز بشكل كبير دقة مطابقة الأمثلة. أثبتت تقنية CAVIS تفوقها على أفضل الأساليب الحالية في جميع مجموعات البيانات المرجعية لتقسيم الأشياء في مقاطع الفيديو (VIS) وتقسيم البانورامي في مقاطع الفيديو (VPS). ومن الجدير بالذكر أن طريقتنا تتفوق بشكل خاص على مجموعة بيانات OVIS، المعروفة بمقاطع الفيديو الصعبة للغاية.