HyperAIHyperAI
منذ 2 أشهر

CapsuleVOS: تقسيم الأشياء في الفيديو باستخدام التوجيه الكبسولي شبه المشرف عليه

Kevin Duarte; Yogesh S Rawat; Mubarak Shah
CapsuleVOS: تقسيم الأشياء في الفيديو باستخدام التوجيه الكبسولي شبه المشرف عليه
الملخص

في هذا العمل، نقترح نهجًا يستند إلى الكبسولات لتقسيم الأشياء في الفيديو بشكل شبه مشرف (Semi-Supervised Video Object Segmentation). تُعاني الطرق الحالية لتقسيم الأشياء في الفيديو من أنها تعتمد على الإطارات بشكل منفصل وغالبًا ما تتطلب تدفق الضوء البصري (Optical Flow) للحفاظ على التوافق الزمني بين الإطارات، وهو أمر قد يكون صعبًا حسابه. بهدف حل هذه المشكلة، نقترح شبكة كبسولات تعتمد على الفيديو، والتي أطلقنا عليها اسم CapsuleVOS، وهي قادرة على تقسيم عدة إطارات دفعة واحدة بشرط وجود إطار مرجعي وقناع تقسيم. يتم تنفيذ هذا الشرط من خلال خوارزمية توجيه جديدة تعتمد على الانتباه لاختيار الكبسولات بكفاءة.نعالج مشكلتين صعبتين في تقسيم الأشياء في الفيديو: 1) تقسيم الأشياء الصغيرة، و2) احتجاب الأشياء عبر الزمن. يتم التعامل مع مشكلة تقسيم الأشياء الصغيرة باستخدام وحدة التقريب التي تسمح للشبكة بمعالجة المناطق المكانية الصغيرة في الفيديو. بالإضافة إلى ذلك، يستخدم الإطار عمل وحدة ذاكرة جديدة تعتمد على الشبكات المتكررة (Recurrent Networks)، مما يساعد في تتبع الأشياء عندما تتحرك خارج الإطار أو تكون محتجبة.تُدرَّب الشبكة بطريقة شاملة من النهاية إلى النهاية (End-to-End)، وقد أظهرنا فعاليتها على مجموعتي بيانات مرجعيتين لتقسيم الأشياء في الفيديو؛ حيث تتفوق على الأساليب الحالية غير المباشرة (Offline Approaches) في مجموعة بيانات Youtube-VOS بينما لديها وقت تشغيل يبلغ ضعف سرعة الأساليب المنافسة تقريبًا. الرمز البرمجي متاح بشكل عام على الرابط التالي: https://github.com/KevinDuarte/CapsuleVOS.

CapsuleVOS: تقسيم الأشياء في الفيديو باستخدام التوجيه الكبسولي شبه المشرف عليه | أحدث الأوراق البحثية | HyperAI