تعلم العمق من منظور واحد في المشاهد الديناميكية من خلال اتساق التصوير المدرك للهوية

نقدم إطارًا تدريبيًا متكاملًا من الطرف إلى الطرف يُعدّل بشكل صريح الحركة بستة درجات من الحرية (6-DoF) لكائنات ديناميكية متعددة، وحركة المركبة (ego-motion)، والعمق في بيئة كاميرا مونوكولار دون الحاجة إلى تدريب مُشرَّف. تتمثل مساهماتنا التقنية في ثلاث جوانب رئيسية. أولاً، نسلط الضوء على الفرق الجوهري بين التProjected العكسي (inverse projection) والترميز الأمامي (forward projection) عند نمذجة الحركة الفردية لكل كائن صلب، ونقترح نموذجًا هندسيًا دقيقًا للترميز يعتمد على وحدة ترميز أمامية مدعومة بالشبكات العصبية. ثانيًا، نصمم خسارة موحدة تراعي الوعي بالكائنات (instance-aware) من حيث الاتساق الضوئي والهندسي، تُطبّق إشارات تدريب ذاتيّة شاملة لكل من مناطق الخلفية والكائنات. أخيرًا، نقدّم خطة تلقائية للتأشير (auto-annotation) عامة الاستخدام، تستخدم أي نموذج جاهز لتقسيم الكائنات (instance segmentation) وتدفق بصري (optical flow) لإنتاج خرائط تقسيم الكائنات في الفيديو، والتي تُستخدم كمدخلات في خط أنابيب تدريبينا. تم التحقق من صحة هذه العناصر المقترحة من خلال دراسة تحليلية مفصلة. ومن خلال تجارب واسعة أُجريت على مجموعتي بيانات KITTI وCityscapes، يُظهر إطارنا الأداء الأفضل مقارنةً بأفضل الطرق الحالية في تقدير العمق والحركة. يمكن الوصول إلى الكود، والبيانات، والنموذج عبر الرابط التالي: https://github.com/SeokjuLee/Insta-DM.