Command Palette
Search for a command to run...
OA-CNNs: شبكات عصبية متعددة الطبقات نادرة التكيف الشامل للفصل الدلالي ثلاثي الأبعاد
OA-CNNs: شبكات عصبية متعددة الطبقات نادرة التكيف الشامل للفصل الدلالي ثلاثي الأبعاد
Bohao Peng Xiaoyang Wu Li Jiang Yukang Chen Hengshuang Zhao Zhuotao Tian Jiaya Jia
الملخص
بدأ النمو المتسارع في التعرف على الأبعاد الثلاثية في عقد الـ2020 مع ظهور محولات السحابة النقطية (point cloud transformers). وقد سرعان ما تفوقت هذه المحولات على الشبكات العصبية التلافيفية النادرة (sparse CNNs) وتحوّلت إلى النماذج الرائدة، خاصة في مهام التصنيف الدلالي ثلاثي الأبعاد (3D semantic segmentation). ومع ذلك، لا تزال الشبكات العصبية التلافيفية النادرة ذات قيمة كبيرة بفضل كفاءتها العالية وسهولة تطبيقها. في هذا العمل، نعيد تقييم الفروق التصميمية بين هذه الشبكات ونختبر الحدود القصوى لما يمكن أن تحققه الشبكات النادرة. ونكتشف أن العامل الحاسم وراء الفرق في الأداء هو القدرة على التكيّف (adaptivity). وبشكل خاص، نقترح مكوّنين رئيسيين: مجال الاستقبال التكيّفي (spatially) والعلاقة التكيّفية، لسد الفجوة بين الأداء. وقد أدى هذا الاستكشاف إلى إنشاء عائلة من الشبكات تُعرف بـ "Omni-Adaptive 3D CNNs" (OA-CNNs)، وهي عائلة من الشبكات التي تدمج وحدة خفيفة الوزن لتعزيز قدرة التكيّف في الشبكات النادرة بتكاليف حسابية ضئيلة جدًا. وبلا أي وحدات انتباه ذاتي (self-attention)، تتفوّق OA-CNNs على محولات السحابة النقطية من حيث الدقة في المشاهد الداخلية والخارجية، مع تقليل كبير في زمن التأخير (latency) وتكلفة الذاكرة. وبشكل ملحوظ، حققت OA-CNNs متوسط دقة التداخل (mIoU) بنسبة 76.1% و78.9% و70.6% على معايير التحقق لـ ScanNet v2 وnuScenes وSemanticKITTI على التوالي، مع الحفاظ على سرعة لا تقل عن 5 أضعاف سرعة النماذج المماثلة من نوع المحولات. يبرز هذا الاكتشاف الإمكانات الكبيرة للشبكات العصبية التلافيفية النادرة الخالصة في التفوق على الشبكات المرتبطة بالمحولات.