تناغم إكمال المشهد الصرفي ثلاثي الأبعاد مع استعلامات السياق الفردي

ظهرت إكمال المشهد الدلالي ثلاثي الأبعاد (SSC) كمهمة جديدة ومحورية في مجال القيادة الذاتية، تهدف إلى التنبؤ بامتلاء البكسلات في المشاهات الحجمية. ومع ذلك، فإن الأساليب السائدة تركز بشكل أساسي على جمع الخصائص البكسلية، بينما تتجاهل دلالات الكائنات والسياق المكاني. في هذا البحث، نقدم نموذجًا جديدًا يُسمى السيمفونيات (Scene-from-Insts)، الذي يغوص في دمج استعلامات الكائنات لتنسيق إعادة بناء الصور ثنائية الأبعاد إلى ثلاثية الأبعاد ونمذجة المشهد ثلاثي الأبعاد. من خلال استخدام انتباهات الكائنات المتسلسلة المقترحة لدينا، تقوم السيمفونيات بتشفير الدلالات المحورها حول الكائنات بشكل ديناميكي، مما يسهل التفاعلات المعقدة بين المجال المرئي والمجال الحجمي. وفي الوقت نفسه، تمكن السيمفونيات من فهم شامل للمشهد من خلال التقاط السياق عبر الاندماج الفعال لاستعلامات الكائنات، وتخفيف الغموض الهندسي مثل الإخفاء وأخطاء المنظور من خلال الاستدلال بالسياق المكاني. تظهر النتائج التجريبية أن السيمفونيات تحقق أداءً متفوقًا على مقاييس صعبة مثل SemanticKITTI وSSCBench-KITTI-360، حيث حققت درجات mIoU ملحوظة بلغت 15.04 و18.58 على التوالي. هذه النتائج تعكس التطورات الواعدة للنموذج. يمكن الوصول إلى الرمز البرمجي عبر الرابط: https://github.com/hustvl/Symphonies.