التعلم التجميعي متعدد المقاييس في البيئة الطبيعية للفصل الدلالي ثلاثي الأبعاد على نطاق واسع

تُقترح في الدراسات الحديثة لتقسيم الدلالة ثلاثي الأبعاد الاستفادة من التآزر بين الصور والسحابات النقطية من خلال معالجة كل منهما باستخدام شبكة مخصصة، ثم تصوير السمات المُتعلمة ثنائية الأبعاد على النقاط الثلاثية الأبعاد. يطرح دمج السحابات النقطية الضخمة مع الصور عدة تحديات، مثل إنشاء خريطة تربط بين النقاط والبكسلات، ودمج السمات بين عدة زوايا رؤية. تعتمد الطرق الحالية على إعادة بناء الشبكات (mesh reconstruction) أو استخدام أجهزة استشعار متخصصة لاستعادة المناطق المُغطاة، وتستخدم قواعد تقريبية لاختيار ودمج الصور المتاحة. على النقيض من ذلك، نقترح نموذجًا مُدرَّبًا بشكل كامل (end-to-end) لدمج الرؤى المتعددة، يستفيد من ظروف الرؤية الخاصة بالنقاط الثلاثية الأبعاد لدمج السمات من صور تم التقاطها من مواقع عشوائية. يمكن لطرقنا دمج الشبكات الثنائية الأبعاد والثلاثية الأبعاد القياسية، وتتفوق على النماذج ثلاثية الأبعاد التي تعمل على السحابات النقطية الملوّنة، وكذلك على الشبكات الهجينة الثنائية/الثلاثية الأبعاد، دون الحاجة إلى تلوين (colorization)، أو بناء شبكات (meshing)، أو خرائط عمق حقيقية (true depth maps). وقد حددنا حالة متقدمة جديدة (state-of-the-art) في تقسيم الدلالة ثلاثي الأبعاد على نطاق واسع داخل الأماكن المغلقة والخارجية، على بيانات S3DIS (74.7 mIoU في تجربة 6-fold) وعلى بيانات KITTI-360 (58.3 mIoU). يمكن الوصول إلى كامل النموذج عبر الرابط: https://github.com/drprojects/DeepViewAgg، ويحتاج فقط إلى بيانات سحاب ثلاثية الأبعاد خام، وحزمة من الصور وبيانات الوضع (poses).