التعلم المشترك الاستنتاجي والتحولي للفصل الكائنات في الفيديو

يُعدُّ التجزئة الشبه المُراقبة للكائنات في الفيديو مهمةً تتمثل في تجزئة الكائن المستهدف ضمن تسلسل فيديو، مع إعطاء معلومة مُعلَّمة فقط في الإطار الأول. يُعدُّ هذا التحدي صعبًا جدًا نظرًا لقلة المعلومات المتاحة. اعتمد معظم الطرق الأفضل أداءً في الماضي على استنتاج مبني على المطابقة (transductive reasoning) أو تعلُّم استنتاجي مباشر (online inductive learning). ومع ذلك، فإن هذه الطرق إما أقل تمييزًا عند التعامل مع كائنات متشابهة، أو لا تُستغلُّ بشكل كافٍ المعلومات الفضائية الزمنية. في هذا العمل، نقترح دمج التعلُّم الاستنتاجي والتعلُّم الاستنتاجي في إطار موحد للاستفادة من التكامل بينهما لتحقيق تجزئة دقيقة وقوية للكائنات في الفيديو. يتكون النهج المقترح من فرعين وظيفيين. يعتمد الفرع الاستنتاجي على بنية مُحَوِّل خفيفة الوزن لجمع ميزات فضائية زمانية غنية، بينما يقوم الفرع الاستنتاجي بتنفيذ تعلُّم استنتاجي مباشر في الوقت الفعلي للحصول على معلومات تمييزية عن الهدف. ولربط هذين الفرعين المتنوعين، نُقدِّم مشفرًا ثنائي الرؤوس (two-head label encoder) لتعلم مُسبَّق الهدف المناسب لكل منهما. كما يتم إجبار الترميزات المُولَّدة للأقنعة على أن تكون منفصلة (disentangled) لتحسين الحفاظ على التكامل بين الفرعين. أظهرت التجارب الواسعة على عدة معايير شائعة أن النهج المقترح، دون الحاجة إلى بيانات تدريب اصطناعية، يحقق سلسلة من الأرقام القياسية الجديدة في الأداء. يمكن الاطلاع على الكود من خلال الرابط: https://github.com/maoyunyao/JOINT.