HyperAIHyperAI
منذ 11 أيام

Swin3D: هي هيكل أساسي مُدرَّب مسبقًا لشبكة التحويل (Transformer) لفهم المشاهد الداخلية ثلاثية الأبعاد

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo
Swin3D: هي هيكل أساسي مُدرَّب مسبقًا لشبكة التحويل (Transformer) لفهم المشاهد الداخلية ثلاثية الأبعاد
الملخص

تمّ تحقيق نجاح كبير باستخدام الخلفيات المُدرّبة مسبقًا مع التحسين الدقيق (fine-tuning) في المهام المتعلقة بالرؤية ثنائية الأبعاد ومعالجة اللغة الطبيعية، حيث أظهرت مزايا مقارنة بالشبكات المخصصة للمهام المحددة. في هذا العمل، نقدّم خلفية ثلاثية الأبعاد مُدرّبة مسبقًا تُسمّى {\SST} لفهم المشاهد الداخلية ثلاثية الأبعاد. قمنا بتصميم شبكة خلفية تعتمد على نموذج 3D Swin Transformer، الذي يتيح انتباهًا ذاتيًا فعّالًا على الشبكات النادرة (sparse voxels) بتعقيد ذاكرة خطي، ما يجعل هذه الخلفية قابلة للتوسع إلى نماذج كبيرة وبيانات ضخمة. كما قدّمنا أيضًا_scheme مُعمّمًا للإدراج المكاني النسبي السياقي، بهدف التقاط التباينات المختلفة في إشارات النقاط، مما يحسّن أداء الشبكة بشكل عام. تم تدريب نموذج {\SST} الكبير مسبقًا على مجموعة بيانات اصطناعية تُسمّى Structured3D، والتي تفوق حجمها مجموعة بيانات ScanNet بدرجة تُعادل مرتبة واحدة. وتبين أن النموذج المُدرّب مسبقًا على البيانات الاصطناعية يتمتع بقدرة تعميم جيدة على المهام التالية مثل التجزئة والكشف في بيانات النقط ثلاثية الأبعاد الحقيقية، كما يتفوّق على أحدث الطرق في المهام التالية بفارق +2.3 mIoU و+2.2 mIoU في تجزئة السمات على منطقتي S3DIS Area5 و6-fold، و+1.8 mIoU في تجزئة ScanNet (التحقق)، و+1.9 [email protected] في كشف ScanNet، و+8.1 [email protected] في كشف S3DIS. وتمّ تأكيد قابلية التوسع والعمومية والأداء المتفوّق الذي يوفره نهجنا من خلال سلسلة من الدراسات التحليلية الواسعة. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/microsoft/Swin3D.

Swin3D: هي هيكل أساسي مُدرَّب مسبقًا لشبكة التحويل (Transformer) لفهم المشاهد الداخلية ثلاثية الأبعاد | أحدث الأوراق البحثية | HyperAI