GeoNet: التعلم غير المشرف للكثافة العميقة، تدفق الضوء البصري ووضعية الكاميرا

نقترح GeoNet، إطارًا للتعلم غير المشرف المشترك لتقدير العمق الأحادي البؤرة، والتدفق البصري، وحركة الذات من الفيديوهات. يتم ربط المكونات الثلاثة بطبيعة هندسة المشهد ثلاثي الأبعاد، والتي يتم تعلمها بشكل مشترك بواسطة إطارنا بطريقة شاملة من النهاية إلى النهاية. بصفة خاصة، يتم استخراج العلاقات الهندسية عبر التنبؤات الخاصة بكل وحدة ثم دمجها كخسارة إعادة بناء الصورة، مع التعامل بشكل منفصل عن أجزاء المشهد الثابتة والمتحركة. بالإضافة إلى ذلك، نقترح خسارة توافق هندسي متكيفة لتزيد من المتانة تجاه القيم الشاذة والمناطق الغير لامبرتية (non-Lambertian)، مما يحل مشكلات الإخفاء والغموض النسيجي بكفاءة. تكشف التجارب على مجموعة بيانات KITTI للقيادة أن نظامنا يحقق نتائج في طليعة المجال في جميع المهام الثلاثة، حيث يؤدي أفضل من الأساليب غير المشرفة السابقة ويقارن مع الأساليب المشرفة.