نقطة-فوكسل CNN لتعلم العمق ثلاثي الأبعاد بكفاءة

نقدم شبكات النقطة-البكسيل ثلاثية الأبعاد (PVCNN) للتعلم العميق الفعال والسريع. في الأعمال السابقة، يتم معالجة البيانات ثلاثية الأبعاد باستخدام نماذج الشبكات العصبية القائمة على البكسلات أو النقاط. ومع ذلك، فإن كلا النهجين غير فعّالين من الناحية الحسابية. تزداد تكلفة الحساب وحجم الذاكرة في نماذج البكسلات بمعدل مكعب مع زيادة دقة الإدخال، مما يجعل زيادة الدقة صعبة للغاية من حيث الذاكرة. أما بالنسبة للشبكات القائمة على النقاط، فيتم إهدار ما يصل إلى 80% من الوقت في تنظيم البيانات النادرة التي لديها موقعية ذاكرة سيئة للغاية، وليس في استخراج الميزات الفعلية. في هذا البحث، نقترح PVCNN التي تمثل البيانات الإدخالية ثلاثية الأبعاد بالنقاط لتقليل استهلاك الذاكرة، بينما تقوم بالتشويش في البكسلات لتقليل الوصول إلى البيانات غير المنتظمة والنادرة وتحسين الموقعية. يعتبر نموذج PVCNN الخاص بنا فعالًا من حيث الذاكرة والحساب. عند تقييمه على مجموعات بيانات التجزئة الدلالية والأجزاء، يحقق دقة أعلى بكثير من الأساس القائم على البكسلات مع تقليل ذاكرة GPU بمقدار 10 أضعاف؛ كما أنه يتفوق على أفضل النماذج القائمة على النقاط بأداء أسرع بنسبة 7 أضعاف في المتوسط. بشكل ملحوظ، يحقق الإصدار الأضيق من PVCNN سرعة أكبر بمرتين عن PointNet (وهو نموذج فائق الكفاءة) في مقاييس التجزئة للأجزاء والمشهد مع دقة أعلى بكثير. نؤكد فعالية PVCNN العامة في اكتشاف الأجسام ثلاثية الأبعاد: عن طريق استبدال العناصر الأساسية في Frustrum PointNet بـ PVConv، فإنه يتفوق على Frustrum PointNet++ بمتوسط زيادة قدرها 2.4% في mAP مع سرعة أسرع بنسبة 1.5 مرة وتقليل ذاكرة GPU.请注意,这里“PVConv”是一个专有名词,因此在阿拉伯语中保留了其英文形式。其他术语如“PointNet”,“Frustrum PointNet”和“Frustrum PointNet++”也是直接从英文翻译过来的,以保持专业性和一致性。