HyperAIHyperAI
منذ 2 أشهر

Mask4Former: متحول الأقنعة للتقسيم البانورامي في الأبعاد الأربعة

Yilmaz, Kadir ; Schult, Jonas ; Nekrasov, Alexey ; Leibe, Bastian
Mask4Former: متحول الأقنعة للتقسيم البانورامي في الأبعاد الأربعة
الملخص

القدرة على إدراك وتتبع الحالات بدقة عبر الزمن ضرورية لعمليات صنع القرار لدى الوكلاء المستقلين الذين يتفاعلون بشكل آمن في بيئات ديناميكية. بهدف تحقيق ذلك، نقترح استخدام Mask4Former لأداء المهمة الصعبة المتعلقة بتجزئة البانوراما رباعية الأبعاد (4D Panoptic Segmentation) للسحابات النقطية لليدار (LiDAR). يعتبر Mask4Former أول منهج يستند إلى التحويلات (Transformers) يجمع بين تجزئة الحالات الدلالية والتتبع للسلاسل النقطية ثلاثية الأبعاد النادرة وغير المنتظمة في نموذج مشترك واحد. يتنبأ نموذجنا مباشرة بالحالات الدلالية وارتباطاتها الزمنية دون الاعتماد على استراتيجيات ارتباط غير متعلمة ومصممة يدوياً مثل التجميع الاحتمالي أو التنبؤ القائم على التصويت بالمركز. بدلاً من ذلك، يُقدم Mask4Former استعلامات حالات فضائية زمنية (Spatio-Temporal Instance Queries) التي تقوم بتشفير الخصائص الدلالية والهندسية لكل مقطع دلالي زمني (Tracklet) في السلسلة. في دراسة شاملة، وجدنا أن تعزيز التنبؤات الفضائية المكثفة أمر حاسم، حيث تميل الاستعلامات الفضائية الزمنية للحالات إلى دمج حالات متعددة ذات دلالة متشابهة، حتى لو كانت بعيدة فضائياً. لهذا الغرض، نقوم بإرجاع معلمات الصندوق الحدودي ذو الست درجات حرية (6-DOF Bounding Box Parameters) من الاستعلامات الفضائية الزمنية للحالات، والتي تُستخدم كمهمة مساعدة لتعزيز التنبؤات الفضائية المكثفة. حقق Mask4Former أحدث مستوى عالمي على مجموعة اختبار SemanticKITTI بمعدل 68.4 LSTQ.