RPVNet: شبكة دمج عميقة وفعالة للنقاط والبيكسلات في مجال التصوير ثلاثي الأبعاد باستخدام ليدار

يمكن تمثيل السحب النقطية بعدة أشكال (وجهات نظر)، وعادة ما تكون مجموعات نقطية، خلايا مستندة إلى الفوكسل أو صور مستندة إلى المدى (أي، المنظر الشامل). وجهة النظر النقطية دقيقة هندسياً، ولكنها غير منظمة، مما يجعل من الصعب العثور على الجيران المحليين بكفاءة. وجهة النظر المستندة إلى الفوكسل منتظمة، ولكنها نادرة، وتزيد الحسابات بمعدل مكعب عند زيادة دقة الفوكسل. وجهة النظر المستندة إلى المدى منتظمة وغنية بشكل عام، ومع ذلك فإن الإسقاط الكروي يسبب تشوه الأبعاد البدنية. تعاني كلتا وجهتي النظر المستندة إلى الفوكسل والمستندة إلى المدى من فقدان التكميم، خاصة بالنسبة للفوكسل عند التعامل مع المشاهد ذات الحجم الكبير. لاستخدام مزايا وجهات النظر المختلفة وتخفيف نقاط ضعفها في مهمة التقسيم الدقيق، نقترح شبكة تجميع جديدة مستندة إلى المدى والنقطة والفوكسل، والتي نطلق عليها اسم RPVNet. في هذه الشبكة، قمنا بتصميم إطار تجميع عميق مع تفاعلات متعددة ومتبادلة للمعلومات بين هذه الثلاثة وجهات نظر واقترحنا وحدة تجميع مقيدة (تُعرف باسم GFM)، والتي يمكنها دمج الثلاثة خصائص بشكل متكيف بناءً على المدخلات المتزامنة. علاوة على ذلك، فإن آلية التفاعل المقترحة بين RPV فعالة للغاية، وقد جمعناها في صياغة أكثر عمومية. عن طريق الاستفادة من هذا التفاعل الفعال ودقة الفوكسل النسبية الأقل، تم إثبات أن طريقتنا أكثر كفاءة أيضاً. أخيراً، قمنا بتقييم النموذج المقترح على مجموعة بيانات كبيرة حجماً واحدة هي SemanticKITTI والأخرى nuScenes، وأظهرت أداؤه الرائد في كلتيهما. يُلاحظ أن طريقتنا تحتل حالياً المركز الأول في قائمة تصنيف SemanticKITTI دون أي حيل إضافية.