كل بكسل يُعد: التعلم الهندسي غير المشرف مع الفهم الشامل للحركة ثلاثية الأبعاد

قد حققت تقنيات التعلم لتقدير الهندسة ثلاثية الأبعاد في صورة واحدة من خلال مشاهدة مقاطع الفيديو غير المصنفة عبر الشبكات العصبية التلافيفية العميقة تقدمًا كبيرًا مؤخرًا. تعتمد الأساليب الحالية الأكثر تقدمًا (SOTA) على إطار العمل التعليمي للهندسة ثلاثية الأبعاد الثابتة من الحركة، حيث يتم نمذجة حركة الكاميرا ثلاثية الأبعاد فقط لتقدير الهندسة. ومع ذلك، فإن الأشياء المتحركة موجودة أيضًا في العديد من مقاطع الفيديو، مثل السيارات المتحركة في مشهد شارع. في هذا البحث، نعالج هذه الحركة بإضافة نمذجة الحركة ثلاثية الأبعاد لكل بكسل إلى إطار العمل التعليمي، مما يوفر فهمًا شاملًا لتدفق المشهد ثلاثي الأبعاد ويساعد في تقدير الهندسة في الصور المنفردة.وبشكل محدد، عند تقديم إطارين متتاليين من مقطع فيديو، نستخدم شبكة حركية لتنبؤ وضع الكاميرا الثلاثي الأبعاد النسبي وقناع تقسيم يميز بين الأجسام المتحركة والخلفية الثابتة. يتم استخدام شبكة تدفق ضوئي لتقدير التوافق الكثيف ثنائي الأبعاد لكل بكسل. تقوم شبكة عمق الصورة المنفردة بتنبؤ خرائط العمق لكلا الصورتين. يتم دمج أنواع المعلومات الأربعة، وهي: التدفق ثنائي الأبعاد، وضع الكاميرا، قناع التقسيم وخرائط العمق، في محرك تحليل حركي ثلاثي أبعاد قابل للمفاضلة (HMP)، حيث يتم استعادة الحركة ثلاثية الأبعاد لكل بكسل للخلفية الثابتة والأجسام المتحركة.نقوم بتصميم مجموعة متنوعة من الخسائر المتعلقة بالحالتين المختلفتين للحركة ثلاثية الأبعاد لتدريب شبكات العمق والحراك، مما يؤدي إلى تقليل الخطأ بشكل أكبر في تقدير الهندسة. وأخيراً، من أجل حل مشكلة الالتباس الحركي ثلاثي الأبعاد الناتج عن مقاطع الفيديو المنفردة العين، ندمج الصور الاستريوسكوبية في التدريب المشترك. أظهرت التجارب على مجموعة بيانات KITTI 2015 أن تقديرنا للهندسة والحركة ثلاثية الأبعاد وقناع الأجسام المتحركة ليس فقط مقيدًا ليكون متسقًا، ولكنه أيضًا يتفوق بشكل كبير على الأساليب الأخرى الأكثر تقدمًا (SOTA)، مما يثبت فوائد نهجنا.