Drive&Segment: التجزئة الدلالية غير المراقبة للمناظر الحضرية من خلال التقطيع عبر الوسائط

تُجري هذه الدراسة بحثًا في تعلُّم التجزئة الدلالية للبكسل في الصور في المشاهد الحضرية دون أي تسمية يدوية، بل فقط من البيانات الخام غير المُنظَّمة التي تم جمعها بواسطة سيارات مزودة بكاميرات وأجهزة استشعار ليدار، والتي تتحرك في المدن. تتمثل إسهاماتنا في ثلاثة جوانب. أولاً، نقترح طريقة جديدة لتعلُّم غير مُراقب عبر الوسائط (cross-modal) للتَّجزئة الدلالية للصور، من خلال الاستفادة من بيانات ليدار وصور مُزامنة. ويتمثل العنصر الأساسي في طريقة التَّعليم في استخدام وحدة اقتراح الكائنات التي تحلل السحابة النقطية ليدار للحصول على اقتراحات للكائنات المتناسقة مكانيًا. ثانيًا، نُظهر أن هذه الاقتراحات ثلاثية الأبعاد يمكن تزامنها مع الصور المدخلة وتصنيفها بشكل موثوق في فئات افتراضية ذات دلالة معنوية. ثالثًا، نطوّر نهجًا للتَّبَعية عبر الوسائط (cross-modal distillation) يستخدم بيانات الصور التي تم تسميتها جزئيًا باستخدام الفئات الافتراضية الناتجة، لتدريب نموذج مبني على التحويل (transformer) للتَّجزئة الدلالية للصور. ونُظهر قدرة التَّعميم في طريقة التَّعليم من خلال اختبارها على أربع مجموعات بيانات اختبار مختلفة (Cityscapes، Dark Zurich، Nighttime Driving، و ACDC) دون أي تحسين دقيق (fine-tuning)، ونُثبت تحسنًا كبيرًا مقارنة بالحالة الراهنة للتقنية في هذا المجال. يُمكن الاطلاع على الكود والتفاصيل الإضافية من خلال الصفحة الرسمية للمشروع: https://vobecant.github.io/DriveAndSegment/.