SAT: نموذج تحويلي واعٍ بالحجم لتصنيف الدلالة للسحابات النقطية ثلاثية الأبعاد

نجحت نماذج Transformer في تحقيق أداءً واعدًا في تصنيف السحابة النقطية. ومع ذلك، فإن معظم النماذج الانتباه الحالية توفر نموذجًا موحدًا لتعلم الميزات لكل نقطة بالتساوي، وتجاهل الفرق الهائل في الحجم بين الكائنات في المشهد. في هذه الورقة، نقترح نموذج Transformer المُدرك للحجم (SAT)، الذي يمكنه تخصيص مجالات استقبال فعّالة للكائنات ذات الأحجام المختلفة. يحقق SAT التعلم المُدرك للحجم من خلال خطوتين: إدخال ميزات متعددة المقاييس إلى كل طبقة انتباه، وتمكين كل نقطة من اختيار مجالاتها الانتباهية بشكل تكيفي. يحتوي النموذج على تصميمين رئيسيين: مخطط الانتباه متعدد الحُدود (MGA) ووحدة إعادة الانتباه (Re-Attention). يعالج MGA تحديين: جمع الرموز (tokens) من مناطق بعيدة بكفاءة، وحفظ الميزات متعددة المقاييس داخل طبقة انتباه واحدة. وبشكل خاص، تم اقتراح الانتباه المتبادل بين النقطة والبكسل (point-voxel cross attention) لحل التحدي الأول، بينما تم تطبيق استراتيجية التوجيه (shunted strategy) المستندة إلى الانتباه الذاتي متعدد الرؤوس القياسي لحل التحدي الثاني. وتقوم وحدة Re-Attention بتعديل نقاط الانتباه ديناميكيًا بالنسبة للميزات الدقيقة والخشنة التي تُخرِجها MGA لكل نقطة. أظهرت النتائج التجريبية الواسعة أن SAT يحقق أداءً من الدرجة الأولى على مجموعتي بيانات S3DIS وScanNetV2. كما حقق SAT أفضل أداء متوازن بين الفئات مقارنةً بجميع الأساليب المذكورة، مما يوضح تفوقه في نمذجة الكائنات ذات الأحجام المختلفة. سيتم إصدار الكود والنماذج الخاصة بنا بعد قبول هذه الورقة.