علاج الحركة كخيار لتقليل الاعتماد على الحركة في تقسيم الكائنات المرئية بدون إشراف

تهدف تقنية فصل الكائنات في الفيديو بدون إشراف (Unsupervised Video Object Segmentation - VOS) إلى اكتشاف أكثر الكائنات بروزًا في سلسلة الفيديو على مستوى البكسل. في تقنية VOS بدون إشراف، تعتمد معظم الطرق الرائدة على مؤشرات الحركة المستخرجة من خرائط التدفق البصري بالإضافة إلى مؤشرات المظهر لاستغلال الخاصية التي تتميز بها الكائنات البارزة عادةً بأن لها حركات مميزة مقارنة بالخلفية. ومع ذلك، نظرًا لاعتمادها الزائد على مؤشرات الحركة التي قد تكون غير موثوقة في بعض الحالات، لا يمكنها تحقيق تنبؤ مستقر. للحد من هذا الاعتماد على الحركة في طرق VOS ثنائية التيار الموجودة، نقترح شبكة جديدة تستخدم مؤشرات الحركة بشكل اختياري (motion-as-option network). بالإضافة إلى ذلك، للاستفادة الكاملة من الخاصية المقترحة للشبكة وهي أن الحركة ليست دائمًا ضرورية، نقدم استراتيجية تعلم شبكات تعاونية. على جميع قواعد البيانات المرجعية العامة، توفر الشبكة المقترحة أداءً رائدًا مع سرعة استدلال في الوقت الحقيقي.