مُحَوِّل التجزئة البانوبتيكية لسحابة النقاط الموجهة بالموقع

بدأ مُعدّل DETR (DEtection TRansformer) اتجاهًا جديدًا يعتمد على مجموعة من الاستفسارات القابلة للتعلم لتحقيق إدراك بصري موحد. تبدأ هذه الدراسة بتطبيق هذا النموذج الجذاب على تصنيف سحابات النقاط المستندة إلى ليدار، مما ينتج نموذجًا أساسيًا بسيطًا ولكن فعّالًا. وعلى الرغم من أن التكييف البسيط يحقق نتائج مقبولة، إلا أن أداء التجزئة للمناظر (instance segmentation) يظل أدنى بشكل ملحوظ مقارنة بالعمليات السابقة. وبتحليل التفاصيل الدقيقة، نلاحظ أن الكائنات في سحابات النقاط النادرة تكون صغيرة نسبيًا مقارنة بالمشهد الكامل، وغالبًا ما تمتلك هندسة متشابهة لكنها تفتقر إلى ملامح بصرية مميزة تُسهم في التصنيف، وهي ظاهرة نادرة في مجال الصور. وبما أن الكائنات في الفضاء ثلاثي الأبعاد تتميز أكثر بمعلومات الموضع، نُركّز على دورها خلال عملية النمذجة ونصمم تضمينًا موضعيًا مُختلطًا (Mixed-parameterized Positional Embedding، MPE) قويًا لتوجيه عملية التصنيف. يتم تضمين هذا التضمين في ميزات المُقدّم (backbone) ويلعب دورًا توجيهيًا تكراريًا في توقع الأقنعة وتحديث الاستفسارات، مما يؤدي إلى تطوير تقنيتين جديدتين: التصنيف المُدرك للموضع (Position-Aware Segmentation، PA-Seg) والانتباه المُقنَّع المركّز (Masked Focal Attention، MFA). وتمكّن هذه التصاميم الاستفسارات من التركيز على مناطق محددة والتمييز بين الكائنات المختلفة. ويُسمى هذا الأسلوب بـ P3Former (المحول المُوجَّه بالموضع للتصنيف الشامل لسحابات النقاط)، ويتفوّق على أحدث الطرق السابقة بنسبة 3.4% و1.2% في معيار PQ على معايير SemanticKITTI وnuScenes على التوالي. يُمكن الوصول إلى الشفرة المصدرية والنموذج عبر الرابط: https://github.com/SmartBot-PJLab/P3Former.