HyperAIHyperAI
منذ 17 أيام

MSN: شبكة اختيار قناع آلي فعالة للتحجيم المستمر للInstances في الفيديو

Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi
MSN: شبكة اختيار قناع آلي فعالة للتحجيم المستمر للInstances في الفيديو
الملخص

في هذا العمل، نقدم حلًا جديدًا لمشكلة التجزئة الوضعية للفيديو (Video Instance Segmentation - VIS)، والذي يتمثل في إنشاء أقنعة تجزئة على مستوى الكائنات تلقائيًا، إلى جانب تحديد فئة الكائن وتعقبه عبر مقطع فيديو. تعزز طريقة العمل الأقنعة الناتجة من فرعين: فرع التجزئة وفرع الانتشار، بشكل مباشر ومتزامن باستخدام شبكة اختيار الأقنعة (Mask Selection Network - MSN)، مما يحد من تراكم الضوضاء أثناء عملية تعقب الأقنعة. نقترح تصميمًا فعّالًا لشبكة MSN باستخدام شبكة عصبية تلافيفية تعتمد على القطع (patch-based convolutional neural network)، حيث تمتلك القدرة على التمييز بين الفروق الدقيقة جدًا بين الأقنعة، واختيار الأقنعة الأفضل بدقة من بين الأقنعة المرتبطة. بالإضافة إلى ذلك، نستفيد من اتساق الزمنية ونُعالج تسلسلات الفيديو بشكل مزدوج: في الاتجاه الأمامي والعكسي، كخطوة ما بعد المعالجة لاسترجاع الكائنات المفقودة. يمكن استخدام الطريقة المقترحة لتعديل أي طريقة لتقسيم الكائنات في الفيديو لتناسب مهمة VIS. حققت الطريقة المقترحة نتيجة قدرها 49.1 mAP في مسابقة YouTube-VIS 2021، وحلّت في المرتبة الثالثة بين أكثر من 30 فريقًا عالميًا. سيكون الكود الخاص بنا متاحًا على: https://github.com/SHI-Labs/Mask-Selection-Networks.