ConDaFormer: تحويلة مفككة مع تعزيز البنية المحلية لفهم سحابات النقاط ثلاثية الأبعاد

تم استكشاف نماذج الترانسفورمر مؤخرًا لفهم السحاب النقطي ثلاثي الأبعاد، حيث تم تحقيق تقدم ملحوظ. ومع أن عدد النقاط كبير جدًا (أكثر من 100,000 نقطة)، فإن الانتباه الذاتي العالمي يصبح غير عملي في بيانات السحاب النقطي. لذلك، يقترح معظم الطرق تطبيق نموذج الترانسفورمر في نطاق محلي، مثل النافذة الكروية أو المكعبية. ومع ذلك، لا يزال يحتوي على عدد كبير من أزواج الاستعلام-القيمة، مما يستدعي تكاليف حسابية عالية. بالإضافة إلى ذلك، غالبًا ما تتعلم الطرق السابقة الاستعلام والقيمة والقيمة (Query, Key, Value) باستخدام تحويل خطي دون نمذجة البنية الهندسية ثلاثية الأبعاد المحلية. في هذه الورقة، نسعى لتقليل التكاليف ونمذجة المُسبق الهندسي المحلي من خلال تطوير كتلة ترانسفورمر جديدة تُسمى ConDaFormer. من الناحية التقنية، تقوم ConDaFormer بتفكيك النافذة المكعبية إلى ثلاث مستويات ثنائية الأبعاد متعامدة، مما يؤدي إلى تقليل عدد النقاط عند نمذجة الانتباه في نطاق مشابه. إن عملية التفكيك هذه مفيدة في توسيع نطاق الانتباه دون زيادة التعقيد الحسابي، ولكنها تتجاهل بعض السياقات. وللتصحيح، طوّرنا استراتيجية تعزيز البنية المحلية التي تُدخل تحدّدًا عميقًا (depth-wise convolution) قبل وبعد عملية الانتباه. يمكن لهذا النموذج أيضًا التقاط المعلومات الهندسية المحلية. وبفضل هذه التصاميم، تتمكن ConDaFormer من التقاط المعلومات السياقية على المدى الطويل والمقاييس المحلية معًا. وقد أثبتت النتائج التجريبية فعالية النموذج على عدة معايير لفهم السحاب النقطي ثلاثي الأبعاد. يمكن الوصول إلى الكود عبر الرابط: https://github.com/LHDuan/ConDaFormer.