HyperAIHyperAI
منذ 2 أشهر

PointNeXt: إعادة النظر في PointNet++ مع استراتيجيات تدريب وتوسيع محسنة

Qian, Guocheng ; Li, Yuchen ; Peng, Houwen ; Mai, Jinjie ; Hammoud, Hasan Abed Al Kader ; Elhoseiny, Mohamed ; Ghanem, Bernard
PointNeXt: إعادة النظر في PointNet++ مع استراتيجيات تدريب وتوسيع محسنة
الملخص

نقطة نت++ هي واحدة من أكثر المعماريات العصبية تأثيرًا في فهم السحب النقطية. رغم أن دقة نقطة نت++ قد تم تجاوزها بشكل كبير من قبل شبكات حديثة مثل نقطة MLP ونقطة التحويل (Point Transformer)، فقد اكتشفنا أن جزءًا كبيرًا من زيادة الأداء يعود إلى تحسين استراتيجيات التدريب، أي زيادة البيانات والتقنيات المُحسّنة للتحسين، وزيادة أحجام النماذج بدلاً من الابتكارات المعمارية. لذلك، فإن الإمكانات الكاملة لنقطة نت++ لم يتم استكشافها بعد. في هذا العمل، نعيد النظر في المعمارية الكلاسيكية لنقطة نت++ من خلال دراسة مُنظّمة لاستراتيجيات التدريب والتوسع في النموذج، ونقدم مساهمتين رئيسيتين. أولاً، نقترح مجموعة من استراتيجيات التدريب المُحسّنة التي تُحسّن بشكل كبير أداء نقطة نت++. على سبيل المثال، نظهر أنه بدون أي تغيير في المعمارية، يمكن رفع الدقة الكلية (OA) لنقطة نت++ في تصنيف الأشياء بـ ScanObjectNN من 77.9% إلى 86.1%,حتى يتفوق على أحدث طرق نقطة MLP. ثانيًا، ندخل تصميم الزجاجة المعكوسة (inverted residual bottleneck) والـ MLP المنفصل (separable MLPs) إلى نقطة نت++ لتمكين توسع النموذج الفعّال والفعال ونسuggest PointNeXt، الإصدار التالي من نقاط النت. يمكن توسيع نقطة Next بشكل مرناً ويتفوق على أحدث الأساليب في كلٍ من مهام تصنيف ثلاثي الأبعاد وتقسيم الدلالة. بالنسبة للتصنيف، يصل نقطة Next إلى دقة كلية قدرها 87.7% على ScanObjectNN، مما يتفوق على نقطة MLP بمقدار 2.3% بينما يكون أسرع بمقدار 10 مرات أثناء الاستدلال. بالنسبة لتقسيم الدلالة، يحدد نقطة Next مستوى جديدًا للأداء الرائد مع نسبة تقاطع متوسطة قدرها 74.9% على S3DIS (التحقق التقاطعي ست مرات)، وهو أفضل من طريقة تحويل النقاط الحديثة (Point Transformer). يمكن الحصول على الكود والنماذج عبر الرابط https://github.com/guochengqian/pointnext.请注意,由于阿拉伯语是从右向左书写的,因此在实际文档中,链接和其他文本的方向会相应调整。此外,括号内的英文术语是为了确保信息完整而保留的。