SSTVOS: متحولات نادرة في الزمان والمكان لفصل الأشياء في الفيديو

في هذا البحث، نقدم نهجًا يستند إلى متحولات (Transformers) لفصل الأشياء في الفيديو (Video Object Segmentation - VOS). لمعالجة مشكلات الخطأ المتراكم والقابلية للتوسع في الأعمال السابقة، نقترح طريقة قابلة للتوسع وشاملة من النهاية إلى النهاية لـ VOS تُسمى المتحولات الزمانية المكانية النادرة (Sparse Spatiotemporal Transformers - SST). يقوم SST باستخراج تمثيلات لكل بكسل لكل شيء في الفيديو باستخدام انتباه نادر على الخصائص الزمانية المكانية. صيغتنا القائمة على الانتباه لـ VOS تسمح للنموذج بالتعلم للانتباه إلى تاريخ الإطارات المتعددة وتوفير التحيز الاستدلالي المناسب لأداء الحسابات المشابهة للتوصيات اللازمة لحل فصل الحركة. نوضح فعالية الانتباه القائم على الشبكات التكرارية في المجال الزماني المكاني. يحقق أسلوبنا نتائج تنافسية على YouTube-VOS و DAVIS 2017 مع تحسين القابلية للتوسع والمتانة أمام الإخفاءات مقارنة بأحدث التقنيات. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/dukebw/SSTVOS.