سياق وجغرافيا مُدركان في محول الفوكسل لاستكمال المشهد الدلالي

الاستكمال الدلالي للمشهد المستند إلى الرؤية (SSC) حظي باهتمام كبير بسبب تطبيقاته الواسعة في مهام الإدراك ثلاثية الأبعاد المتنوعة. تستخدم النماذج الحالية التي تقوم بتحويل البيانات من نادرة إلى كثيفة عادةً استعلامات مستقلة عن السياق مشتركة عبر صور الإدخال المختلفة، مما يفشل في التقاط الاختلافات بينها حيث تتغير المناطق البؤرية للادخالات المختلفة وقد يؤدي ذلك إلى تجميع خصائص غير موجه عبر الانتباه المتقاطع. بالإضافة إلى ذلك، قد يؤدي عدم وجود معلومات العمق إلى نقاط تم إسقاطها على مستوى الصورة ومشاركتها لنفس الموقع ثنائي الأبعاد أو نقاط العينة المشابهة في الخريطة المميزة، مما يؤدي إلى غموض العمق. في هذا البحث، نقدم محول فوكسل جديد يدرك السياق والهندسة. يستخدم هذا المحول مولد استعلامات يدرك السياق لتوفير استعلامات تعتمد على السياق وتتناسب مع كل صورة إدخال بشكل فردي، مما يتيح التقاط خصائصها الفريدة وتجميع المعلومات داخل المنطقة ذات الاهتمام. علاوة على ذلك، يتم توسيع انتباه التشكيل المتغير من المجال ثنائي الأبعاد إلى المجال ثلاثي الأبعاد للمكعبات البكسلية، مما يمكن من تمييز النقاط ذات الإحداثيات الصورية المشابهة بناءً على إحداثيات عمقها. بناءً على هذا الوحدة، نقدم شبكة عصبية تُسمى CGFormer لتحقيق الاستكمال الدلالي للمشهد. وفي الوقت نفسه، تستفيد CGFormer من تمثيلات ثلاثية الأبعاد متعددة (أي فوكسل و TPV) لتعزيز قدرات التمثيل الدلالي والهندسي للحجم الثلاثي الأبعاد المتحول من وجهات النظر المحلية والعالمية. تظهر النتائج التجريبية أن CGFormer حققت أداءً رائدًا في مقاييس SemanticKITTI و SSCBench-KITTI-360، حيث حققت معدل تقاطع فوق الاتحاد (mIoU) بلغ 16.87 و 20.05 ومعدل تقاطع فوق الاتحاد (IoU) بلغ 45.99 و 48.07 على التوالي. وبشكل ملفت للنظر، حتى تفوقت CGFormer على النماذج التي تستخدم الصور الزمنية كمدخلات أو شبكات صور أكبر بكثير كأساس لها.注释:- "Vision-based Semantic Scene Completion" 翻译为 "الاستكمال الدلالي للمشهد المستند إلى الرؤية"- "Sparse-to-dense" 翻译为 "من نادرة إلى كثيفة"- "Context-aware query generator" 翻译为 "مولد استعلامات يدرك السياق"- "Deformable cross-attention" 翻译为 "انتباه التشكيل المتغير"- "Voxel and TPV" 翻译为 "فوكسل و TPV"(TPV未找到通用的阿拉伯语翻译,因此保留了英文)- "mIoU" 和 "IoU" 直接使用英文缩写,因为它们在科技文献中通常以这种方式出现。