التعاون التنافسي: التعلم غير المشرف المشترك للعمق وحركة الكاميرا والتدفق البصري وتقسيم الحركة

نتناول التعلم غير المشرف لعدة مشاكل متصلة في الرؤية من المستوى المنخفض: التنبؤ بالعمق من وجهة نظر واحدة، تقدير حركة الكاميرا، الجريان البصري، وتقسيم الفيديو إلى المشهد الثابت والمناطق المتحركة. الفكرة الرئيسية لدينا هي أن هذه المشاكل الأربعة الأساسية في الرؤية مرتبطة عبر قيود هندسية. نتيجة لذلك، فإن تعلم حلها معًا يبسط المشكلة لأن الحلول يمكن أن تعزز بعضها البعض. نتجاوز الأعمال السابقة من خلال استغلال الهندسة بشكل أكثر صراحة وتقسيم المشهد إلى مناطق ثابتة ومتحركة. لهذا الغرض، نقدم "التعاون التنافسي" (Competitive Collaboration)، وهو إطار يسهل التدريب المنسق لعدة شبكات عصبية متخصصة لحل المشكلات المعقدة. يعمل التعاون التنافسي بشكل كبير مثل طريقة التوقع-التقديم (expectation-maximization)، ولكن مع شبكات عصبية تعمل كمنافسين لتفسير البكسلات التي تتوافق مع المناطق الثابتة أو المتحركة، وكمساعدين من خلال مشرف يحدد ما إذا كانت البكسلات ثابتة أو متحركة بشكل مستقل. طريقة جديدة لدينا تدمج جميع هذه المشكلات في إطار مشترك وتتعامل بشكل متزامن مع تقسيم المشهد إلى الأجسام المتحركة والخلفية الثابتة، حركة الكاميرا، عمق بنية المشهد الثابت، والجريان البصري للأجسام المتحركة. يتم تدريب نموذجنا بدون أي إشراف ويحقق أداءً رائدًا بين الطرق غير المشرفة المشتركة في جميع المشكلات الفرعية.