التقريب المميز ثنائي الأبعاد للتصنيف الدلالي الثلاثي الأبعاد بطرق الإشراف الضعيف والشبه إشرافي

مع زيادة شعبية مشاكل الإدراك ثلاثي الأبعاد وازدياد الحاجة إلى مجموعات بيانات كبيرة ومصنفة للتقسيم الدلالي لليدار (LiDAR)، ظهرت طرق جديدة تهدف إلى تقليل الحاجة إلى التسميات الكثيفة من خلال استخدام التدريب الخفيف الإشراف (weakly-supervised training). ومع ذلك، فإن هذه الطرق لا تزال تظهر ضعفاً في تقدير الحدود ونسب خطأ عالية للأشياء الصغيرة والمناطق النائية النادرة. نعتقد أن مثل هذه الضعف يمكن تعويضه باستخدام صور RGB التي توفر تمثيلاً أكثر كثافة للمشهد. نقترح شبكة إرشاد الصور (Image-Guidance Network أو IGNet) التي تستند إلى فكرة استخلاص المعلومات الميزات المرتفعة من شبكة تقسيم دلالي ثنائية الأبعاد مدربة بشكل اصطناعي ومنسجمة مع المجال. كما نستفيد من نظام تعلم مقارن أحادي الاتجاه واستراتيجية خلط جديدة تُدعى FOVMix، لمحاربة عدم التطابق في مجال الرؤية الأفقي بين المستشعرين الاثنين وتعزيز آثار إرشاد الصور. حققت الشبكة IGNet أفضل النتائج الحالية في التدريب الخفيف الإشراف للتقسيم الدلالي لليدار على مجموعة بيانات ScribbleKITTI، حيث بلغت نسبة الأداء النسبي حتى 98% مقارنة بالتدريب الكامل الإشراف باستخدام فقط 8% من النقاط المصنفة، دون إدخال أي عبء إضافي في التسمية أو زيادة في التكلفة الحسابية/الذاكرة أثناء الاستدلال. بالإضافة إلى ذلك، نوضح أن مساهماتنا تكون فعالة أيضاً في التدريب شبه الخاضع للإشراف (semi-supervised training)، حيث تحصل الشبكة IGNet على أفضل النتائج الحالية على كل من مجموعة بيانات ScribbleKITTI وSemanticKITTI.