رفع، تشتت، إطلاق: ترميز الصور من مجموعات كاميرات عشوائية عن طريق إعادة الإسقاط الضمنية إلى ثلاثية الأبعاد

هدف الإدراك في المركبات ذاتية القيادة هو استخراج التمثيلات الدلالية من عدة أجهزة استشعار ودمج هذه التمثيلات في إطار إحداثي واحد "من منظور الطائر" لاستفادة خطط الحركة. نقترح معمارية جديدة من النهاية إلى النهاية تُستخرج منها مباشرة تمثيل "من منظور الطائر" للمشهد بناءً على بيانات الصور من عدد تعسفي من الكاميرات. الفكرة الأساسية وراء نهجنا هي رفع كل صورة بشكل فردي إلى مخروط خصائص لكل كاميرا، ثم توزيع جميع المخاريط في شبكة مرسومة "من منظور الطائر". عن طريق التدريب على مجموعة كاملة من الكاميرات، نقدم دليلاً على أن نموذجنا قادر ليس فقط على تعلم كيفية تمثيل الصور ولكن أيضًا كيفية دمج التوقعات من جميع الكاميرات في تمثيل متماسك واحد للمشهد مع القدرة على مقاومة أخطاء التعديل. في المهام القياسية "من منظور الطائر" مثل تقسيم الأشياء وتقسيم الخريطة، يتفوق نموذجنا على جميع النماذج المرجعية والأعمال السابقة. ضمن سعينا لتحقيق هدف تعلم التمثيلات الكثيفة لخطط الحركة، نظهر أن التمثيلات المستنتجة بواسطة نموذجنا تمكن خطط الحركة القابلة للتفسير من النهاية إلى النهاية عن طريق إطلاق مسارات قوالب في خريطة تكلفة "من منظور الطائر" التي ينتجها شبكتنا. نقوم بمقارنة أدائنا مع النماذج التي تستفيد من العمق المثالي (Oracle Depth) الذي يأتي من الليدار. صفحة المشروع مع الشيفرة البرمجية: https://nv-tlabs.github.io/lift-splat-shoot .