Command Palette
Search for a command to run...
SSTVOS: متحولات نادرة في الزمان والمكان لفصل الأشياء في الفيديو
SSTVOS: متحولات نادرة في الزمان والمكان لفصل الأشياء في الفيديو
Brendan Duke extsuperscript1,4,* Abdalla Ahmed extsuperscript4 Christian Wolf extsuperscript3 Parham Aarabi extsuperscript1,4 Graham W. Taylor extsuperscript2,5
الملخص
في هذا البحث، نقدم نهجًا يستند إلى متحولات (Transformers) لفصل الأشياء في الفيديو (Video Object Segmentation - VOS). لمعالجة مشكلات الخطأ المتراكم والقابلية للتوسع في الأعمال السابقة، نقترح طريقة قابلة للتوسع وشاملة من النهاية إلى النهاية لـ VOS تُسمى المتحولات الزمانية المكانية النادرة (Sparse Spatiotemporal Transformers - SST). يقوم SST باستخراج تمثيلات لكل بكسل لكل شيء في الفيديو باستخدام انتباه نادر على الخصائص الزمانية المكانية. صيغتنا القائمة على الانتباه لـ VOS تسمح للنموذج بالتعلم للانتباه إلى تاريخ الإطارات المتعددة وتوفير التحيز الاستدلالي المناسب لأداء الحسابات المشابهة للتوصيات اللازمة لحل فصل الحركة. نوضح فعالية الانتباه القائم على الشبكات التكرارية في المجال الزماني المكاني. يحقق أسلوبنا نتائج تنافسية على YouTube-VOS و DAVIS 2017 مع تحسين القابلية للتوسع والمتانة أمام الإخفاءات مقارنة بأحدث التقنيات. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/dukebw/SSTVOS.