شبكة التجزئة الوضعية ثلاثية الأبعاد المعتمدة على الحافة مع سابقية دلالية ذكية

على الرغم من النتائج الواعدة التي تُظهرها الطرق الحديثة للفصل الثلاثي الأبعاد للInstances باستخدام هياكل المُحَوِّل (Transformer)، فإنها غالبًا ما تفشل في تحديد الـ Instances ذات المظهر الشبيه بدقة. كما أنها تُحدد الحدود بشكل غامض، مما يؤدي إلى تصنيف خاطئ متعدد للنقاط المجاورة للحدود. في هذا العمل، نقدّم إطارًا جديدًا يُسمى EASE لتجاوز هذه التحديات وتحسين إدراك الـ Instances المعقدة ثلاثية الأبعاد. نحن نقترح أولًا شبكة توجيهًا دلاليًا للاستفادة من المعرفة الدلالية الغنية المستمدة من نموذج لغوي كمُعطيات ذكية (Intelligent Priors)، مما يعزز الفهم الوظيفي للInstances الواقعية بما يتجاوز الاعتماد فقط على المعلومات الهندسية. ونوجّه استفسارات الـ Instance الأساسية بشكل صريح باستخدام تضمينات نصية (Text Embeddings) لكل Instance، بهدف تعلّم تفاصيل دلالية عميقة. علاوةً على ذلك، نستخدم وحدة توقع الحدود (Edge Prediction Module) لتشجيع شبكة الفصل على أن تكون واعية بالحدود. ونستخرج خرائط حدود على مستوى البكسل (Voxel-wise Edge Maps) من ميزات النقط، ونستخدمها كمعلومات مساعدة لتعلم إشارات الحدود. وفي تجاربنا الواسعة على مجموعات بيانات كبيرة مثل ScanNetV2 وScanNet200 وS3DIS وSTPLS3D، يتفوّق EASE على النماذج الحالية الأفضل من حيث الأداء، مُظهِرًا كفاءة متفوّقة.