الملخص

في هذا البحث، نقدم نهجًا يستند إلى متحولات (Transformers) لفصل الأشياء في الفيديو (Video Object Segmentation - VOS). لمعالجة مشكلات الخطأ المتراكم والقابلية للتوسع في الأعمال السابقة، نقترح طريقة قابلة للتوسع وشاملة من النهاية إلى النهاية لـ VOS تُسمى المتحولات الزمانية المكانية النادرة (Sparse Spatiotemporal Transformers - SST). يقوم SST باستخراج تمثيلات لكل بكسل لكل شيء في الفيديو باستخدام انتباه نادر على الخصائص الزمانية المكانية. صيغتنا القائمة على الانتباه لـ VOS تسمح للنموذج بالتعلم للانتباه إلى تاريخ الإطارات المتعددة وتوفير التحيز الاستدلالي المناسب لأداء الحسابات المشابهة للتوصيات اللازمة لحل فصل الحركة. نوضح فعالية الانتباه القائم على الشبكات التكرارية في المجال الزماني المكاني. يحقق أسلوبنا نتائج تنافسية على YouTube-VOS و DAVIS 2017 مع تحسين القابلية للتوسع والمتانة أمام الإخفاءات مقارنة بأحدث التقنيات. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/dukebw/SSTVOS.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار