ليست جميع البكسلات متساوية: إكمال المشهد المعنى من منظور النقطة-البكسل

في هذه الورقة، نعيد النظر في مهمة إكمال المشهد الدلالي (Semantic Scene Completion)، وهي مهمة مفيدة تهدف إلى التنبؤ بالتمثيل الدلالي والتملأ في المشاهد ثلاثية الأبعاد. غالبًا ما تعتمد الطرق المختلفة لهذه المهمة على تمثيلات المشهد المُحَوَّلة إلى مكعبات (voxelized scene representations) للحفاظ على البنية المحلية للمشهد. ومع ذلك، نظرًا لوجود مكعبات فارغة مرئية، تُعاني هذه الطرق من تكرار حسابي كبير، خاصة عند زيادة عمق الشبكة، مما يحد من جودة الإكمال. لحل هذا التناقض، نقترح شبكة جديدة تعتمد على تجميع النقاط والمكعبات (point-voxel aggregation network). أولاً، نحول المشاهد المُحَوَّلة إلى مكعبات إلى سحابات نقاط (point clouds) عن طريق إزالة المكعبات الفارغة المرئية، ونستخدم تدفقًا عميقًا للنقاط لالتقاط المعلومات الدلالية من المشهد بكفاءة. في الوقت نفسه، نحافظ على تدفق مكعبات خفيف الوزن يحتوي فقط على طبقتين من التحويلات الثلاثية الأبعاد (3D convolution layers) لحفظ البنية المحلية للمشاهد المُحَوَّلة إلى مكعبات. علاوة على ذلك، صممنا عامل تجميع مكعبات غير متماثل (anisotropic voxel aggregation operator) لدمج التفاصيل البنائية من تدفق المكعبات إلى تدفق النقاط، ووحدة تنقل واعية بالدلالات (semantic-aware propagation module) لتعزيز عملية التكبير (up-sampling) في تدفق النقاط باستخدام التسميات الدلالية. ونُظهر أن نموذجنا يتفوق على أحدث الطرق المنشورة في معيارين مختلفين بفارق كبير، باستخدام صور العمق فقط كمدخلات.