HyperAIHyperAI

Command Palette

Search for a command to run...

ليست جميع البكسلات متساوية: إكمال المشهد المعنى من منظور النقطة-البكسل

Xiaokang Chen Jiaxiang Tang Jingbo Wang Gang Zeng

الملخص

في هذه الورقة، نعيد النظر في مهمة إكمال المشهد الدلالي (Semantic Scene Completion)، وهي مهمة مفيدة تهدف إلى التنبؤ بالتمثيل الدلالي والتملأ في المشاهد ثلاثية الأبعاد. غالبًا ما تعتمد الطرق المختلفة لهذه المهمة على تمثيلات المشهد المُحَوَّلة إلى مكعبات (voxelized scene representations) للحفاظ على البنية المحلية للمشهد. ومع ذلك، نظرًا لوجود مكعبات فارغة مرئية، تُعاني هذه الطرق من تكرار حسابي كبير، خاصة عند زيادة عمق الشبكة، مما يحد من جودة الإكمال. لحل هذا التناقض، نقترح شبكة جديدة تعتمد على تجميع النقاط والمكعبات (point-voxel aggregation network). أولاً، نحول المشاهد المُحَوَّلة إلى مكعبات إلى سحابات نقاط (point clouds) عن طريق إزالة المكعبات الفارغة المرئية، ونستخدم تدفقًا عميقًا للنقاط لالتقاط المعلومات الدلالية من المشهد بكفاءة. في الوقت نفسه، نحافظ على تدفق مكعبات خفيف الوزن يحتوي فقط على طبقتين من التحويلات الثلاثية الأبعاد (3D convolution layers) لحفظ البنية المحلية للمشاهد المُحَوَّلة إلى مكعبات. علاوة على ذلك، صممنا عامل تجميع مكعبات غير متماثل (anisotropic voxel aggregation operator) لدمج التفاصيل البنائية من تدفق المكعبات إلى تدفق النقاط، ووحدة تنقل واعية بالدلالات (semantic-aware propagation module) لتعزيز عملية التكبير (up-sampling) في تدفق النقاط باستخدام التسميات الدلالية. ونُظهر أن نموذجنا يتفوق على أحدث الطرق المنشورة في معيارين مختلفين بفارق كبير، باستخدام صور العمق فقط كمدخلات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp