HyperAIHyperAI
منذ 3 أشهر

UniSeg: شبكة توحيدية متعددة الوسائط للتصنيف البياني لليدار، وبيئة برمجية مفتوحة لـ OpenPCSeg

Youquan Liu, Runnan Chen, Xin Li, Lingdong Kong, Yuchen Yang, Zhaoyang Xia, Yeqi Bai, Xinge Zhu, Yuexin Ma, Yikang Li, Yu Qiao, Yuenan Hou
UniSeg: شبكة توحيدية متعددة الوسائط للتصنيف البياني لليدار، وبيئة برمجية مفتوحة لـ OpenPCSeg
الملخص

تمثل النقاط، والبكسلات، ورؤى المسافة ثلاث صور تمثيلية لسحوبات النقاط (point clouds). وجميعها تمتلك قياسات ثلاثية الأبعاد دقيقة، لكنها تفتقر إلى معلومات اللون والملمس. تُعد الصور RGB تكملة طبيعية لرؤى سحوبات النقاط هذه، وتحقيق الاستفادة الكاملة من المعلومات الشاملة المتوفرة فيها يُسهم في تحسين التمثيلات الحسية بشكل أكثر قوة. في هذه الورقة، نقدم شبكة تجميع متعددة الوسائط موحدة للتنبؤ بسحوبات الليدار، تُسمى UniSeg، والتي تستفيد من معلومات الصور RGB ورؤيتين من سحوبات النقاط (البكسيلية والمسافة)، وتنفذ التصنيف الدلالي والتصنيف الشامل (panoptic segmentation) في آن واحد. وبشكل محدد، نحن نصمم أولًا وحدة الارتباط عبر الوسائط القابلة للتعلم (LMA) لدمج ميزات رؤية البكسلات ورؤية المسافة مع ميزات الصور تلقائيًا، بحيث تُستغل بشكل كامل المعلومات الدلالية الغنية في الصور، وتصبح مقاومة لأخطاء المعايرة. ثم يتم تحويل ميزات رؤية البكسلات ورؤية المسافة المُحسَّنة إلى الفضاء النقطي، حيث يتم دمج ميزات سحوبات النقاط الثلاثة بشكل تكيفي بواسطة وحدة الارتباط عبر الرؤى القابلة للتعلم (LVA). ومن الملاحظ أن UniSeg حققت نتائج مُرضية في ثلاث معايير عامة، وهي: SemanticKITTI وnuScenes وWaymo Open Dataset (WOD)، وتصدرت الترتيب الأول في Challengeين من معايير مزدوجة، بما في ذلك تحدي التصنيف الدلالي للليدار في nuScenes، وتحدي التصنيف الشامل في SemanticKITTI. بالإضافة إلى ذلك، قمنا ببناء مجموعة كود OpenPCSeg، وهي أكبر وأكثر مجموعات الكود شمولاً للتصنيف الخارجي لسحوبات الليدار. وتشمل هذه المجموعة معظم خوارزميات التصنيف الخارجي لسحوبات الليدار الشهيرة، وتقدم تنفيذات قابلة للتكرار. وستُتاح مجموعة OpenPCSeg للجمهور عبر الرابط: https://github.com/PJLab-ADG/PCSeg.