الارتباط بين الأمثلة المتعارضة لتقسيم 4D البانوبتيك باستخدام تسلسلات من مسحات ليدار ثلاثية الأبعاد

إن فهم المشهد يُعد أمرًا بالغ الأهمية للتنقل الذاتي في البيئات الديناميكية. وعادةً ما تُعالج مهام الإدراك في هذا المجال، مثل التجزئة والتتبع، بشكل منفصل. في هذه الورقة، نتناول مشكلة التجزئة البانوبتيكية الأربعة الأبعاد باستخدام بيانات الليدار، والتي تتطلب تعيين فئة دلالية لكل نقطة ثلاثية الأبعاد في تسلسل زمني من المسح، بالإضافة إلى تعيين معرف متماسك زمنيًا لكل كائن. نقترح منهجية جديدة تقوم على بناء شبكة تجزئة بانوبتيكية لمسح واحد عشوائي، ثم تمديدها إلى المجال الزمني من خلال ربط الكائنات عبر الزمن. نُقدّم شبكة تجميع تعاونيّة (Contrastive Aggregation Network) تستفيد من الميزات النقطية الناتجة عن الشبكة البانوبتيكية. وتُنشئ هذه الشبكة فضاء ترميز (Embedding Space) بحيث تكون الترميزات الخاصة بنفس الكائن في لحظات زمنية مختلفة قريبة من بعضها البعض، ومحفوفة بمسافة بعيدة عن الترميزات المنتمية إلى كائنات أخرى. ويتم تدريب الشبكة مستوحى من تقنيات التعلم التعاوني (Contrastive Learning) للتعلم القياسي للمسافة (Self-supervised Metric Learning). ويُدمج وحدة الربط لدينا بين معلومات المظهر والحركة لربط الكائنات عبر المسحات، مما يمكّننا من إجراء إدراك زمني. وقد قُمنا بتقييم منهجنا المقترح على معيار SemanticKITTI، وحققنا نتائج متقدمة على مستوى الحالة الحالية (State-of-the-art)، حتى دون الاعتماد على معلومات الوضع (Pose Information).