الحزم ثلاثي الأبعاد للتقدير الذاتي غير المشرف للعمق الأحادي البصري

رغم شيوع الكاميرات، فإن المنصات الروبوتية تعتمد عادةً على أجهزة استشعار نشطة مثل ليدار (LiDAR) للحصول على إدراك ثلاثي الأبعاد مباشر. في هذا البحث، نقترح طريقة جديدة لتقدير العمق الأحادي الذاتي-الإشراف تجمع بين الهندسة وشبكة عميقة جديدة تُسمى باكنت (PackNet)، والتي تم تعلمها فقط من مقاطع الفيديو الأحادية غير المصنفة. يعتمد تصميمنا على كتل التعبئة والتفريغ المتماثلة الجديدة لتعلم ضغط وفك ضغط التمثيلات الحافظة للتفاصيل باستخدام الCONV3D. رغم كونه ذاتي-الإشراف، فإن طريقتنا تتفوق على طرق الإشراف الذاتي والشبه ذاتي والكاملة الأخرى في معيار كيتي (KITTI). يمكّن التحيز الاستقرائي الثلاثي الأبعاد في باكنت (PackNet) الشبكة من التوسع مع دقة الإدخال وعدد المعلمات دون الانحراف الزائد، مما يجعلها تعمم بشكل أفضل على البيانات خارج المجال مثل مجموعة بيانات نيوسينس (NuScenes). بالإضافة إلى ذلك، لا تتطلب طريقتنا التدريب الأولي المشرف عليه بحجم كبير على إيماجنت (ImageNet) ويمكنها العمل في الوقت الحقيقي. وأخيرًا، نقوم بإصدار DDAD (Dense Depth for Automated Driving)، وهو مجموعة بيانات قيادة حضرية جديدة تحتوي على تقييمات عمق أكثر تحديًا ودقة بفضل العمق الحقيقي الأكثر كثافة والمدى الأطول الذي يتم إنشاؤه بواسطة ليدار عالية الكثافة مثبتة على أسطول من السيارات ذاتية القيادة التي تعمل حول العالم.