HyperAIHyperAI
منذ 2 أشهر

RVOS: شبكة تكرارية من النهاية إلى النهاية لفصل الأشياء في الفيديو

Carles Ventura; Miriam Bellver; Andreu Girbau; Amaia Salvador; Ferran Marques; Xavier Giro-i-Nieto
RVOS: شبكة تكرارية من النهاية إلى النهاية لفصل الأشياء في الفيديو
الملخص

تعد تقسيم الأشياء المتعددة في مقاطع الفيديو مهمة صعبة، خاصة في حالة عدم وجود أي قناع للأشياء في الإطار الأول ولا بد من اكتشاف الأشياء المراد تقسيمها على طول التسلسل الزمني. في عملنا هذا، نقترح شبكة متكررة لتقسيم الأشياء المتعددة في مقاطع الفيديو (RVOS) يمكن تدريبها بشكل كامل من النهاية إلى النهاية. يدمج نموذجنا التكرار في مجالين مختلفين: (i) المجال المكاني، الذي يسمح باكتشاف الحالات المختلفة للأشياء داخل إطار واحد، و (ii) المجال الزمني، الذي يسمح بالحفاظ على تماسك الأشياء المقسمة عبر الزمن. نقوم بتدريب RVOS لتقسيم الأشياء في مقاطع الفيديو بدون أمثلة سابقة ونحن أول من يقدم نتائج كمية لمعياري DAVIS-2017 و YouTube-VOS. علاوة على ذلك، نكيف RVOS لتقسيم الأشياء في مقاطع الفيديو باستخدام أمثلة واحدة عن طريق استخدام القناعات التي تم الحصول عليها في الخطوات الزمنية السابقة كمدخلات معالجة بواسطة الوحدة المتكررة. يصل نموذجنا إلى نتائج مقاربة لأحدث التقنيات في معيار YouTube-VOS ويتفوق على جميع الطرق السابقة لتقسيم الأشياء في مقاطع الفيديو التي لا تستخدم التعلم عبر الإنترنت في معيار DAVIS-2017. بالإضافة إلى ذلك، يحقق نموذجنا أوقات تشغيل استدلال أسرع من الطرق السابقة، حيث يصل إلى 44 مللي ثانية/إطار على بطاقة رسوميات P100.关键词解释:- تقسيم الأشياء المتعددة في مقاطع الفيديو (Multiple Object Video Object Segmentation)- حالة عدم وجود أمثلة سابقة (Zero-shot)- شبكة متكررة (Recurrent Network)- من النهاية إلى النهاية (End-to-end)- المجال المكاني (Spatial Domain)- المجال الزمني (Temporal Domain)- تماسك (Coherence)- معيار DAVIS-2017 (DAVIS-2017 Benchmark)- معيار YouTube-VOS (YouTube-VOS Benchmark)- استخدام أمثلة واحدة (One-shot)- بطاقة رسوميات P100 (P100 GPU)

RVOS: شبكة تكرارية من النهاية إلى النهاية لفصل الأشياء في الفيديو | أحدث الأوراق البحثية | HyperAI