التصوير السريع لكائنات الفيديو باستخدام انتقال القناع الموجه بالمرجع

نقدم طريقة فعّالة للتحليل التصنيفي للأشياء في الفيديو بأسلوب شبه مُعلَّم. تحقق طريقتنا دقة تنافسية مع أفضل الطرق الحالية، مع أداء أسرع بكثير مقارنةً بالطرق الأخرى. ولتحقيق ذلك، نقترح شبكة عميقة من نوع سياميز (Siamese) مكوّنة من معالج تشفير (encoder) ومعالج فك تشفير (decoder)، مصممة للاستفادة من تنقل الأقنعة (mask propagation) وتحديد الكائنات (object detection)، مع تجنب العيوب المتأصلة في كلتا الطريقتين. تعتمد الشبكة على عملية تدريب مكونة من مرحلتين، تستخدم كلاً من البيانات الاصطناعية والواقعية، وتعمل بشكل موثوق دون الحاجة إلى تعلم مباشر (online learning) أو معالجة ما بعد (post-processing). وقد قمنا بتحقق من أداء طريقتنا على أربع مجموعات معيارية تغطي التحليل التصنيفي للكائنات الفردية والمتعددة. على جميع المجموعات المعيارية، تُظهر طريقتنا دقة مماثلة للمنافسين، مع زمن تشغيل أسرع بدرجة من الرتبة (أي بعشرة أضعاف أو أكثر). كما نقدّم دراسات واسعة للتقليل (ablation) والإضافات (add-on) لتحليل وتقييم إطار عملنا بشكل مفصل.