OctFormer: نماذج تحويلية تعتمد على الأوتوكير لسحوبات النقاط ثلاثية الأبعاد

نُقدِّم نماذج تحويلية قائمة على الأشجار الثمانية، تُسمَّى OctFormer، لتعلم السحابات النقطية ثلاثية الأبعاد. يمكن لـ OctFormer أن تعمل كبنية أساسية عامة وفعّالة لتصنيف السحابات النقطية وتحديد الكائنات ثلاثية الأبعاد، مع تميّزها بتعقيد خطي وقابلية للتوسع في معالجة السحابات النقطية الكبيرة. التحدي الرئيسي في تطبيق النماذج التحويلية على السحابات النقطية يتمثل في تقليل التعقيد الحسابي التربيعي، والذي يكون مُرهقًا جدًا في العمليات المرتبطة بالانتباه (attention). لمعالجة هذه المشكلة، اقترح العديد من الدراسات تقسيم السحابات النقطية إلى نوافذ غير متداخلة، وحصر العمليات الانتباهية داخل كل نافذة محلية. لكن عدد النقاط داخل كل نافذة يختلف بشكل كبير، مما يُعيق الأداء الفعّال على وحدات معالجة الرسوميات (GPU). وبالملاحظة أن العمليات الانتباهية تُظهر مرونة تجاه أشكال النوافذ المحلية، نقترح انتباهًا جديدًا مبنيًا على الشجرة الثمانية (octree attention)، الذي يستخدم مفاتيح مرتبة ومُختلطة (shuffled keys) من الشجرة الثمانية لتقسيم السحابات النقطية إلى نوافذ محلية تحتوي على عدد ثابت من النقاط، مع السماح بتغيّر أشكال النوافذ بشكل حر. كما نقدّم أيضًا انتباهًا مُدرّجًا (dilated octree attention) لتوسيع مجال الاستقبال (receptive field) بشكل أكبر. يمكن تنفيذ انتباه الشجرة الثمانية في 10 أسطر فقط من الكود باستخدام مكتبات مفتوحة المصدر، ويعمل بسرعة 17 مرة أسرع من الانتباهات الأخرى المُستخدمة في السحابات النقطية عندما يتجاوز عدد النقاط 200 ألف. مبنيًا على انتباه الشجرة الثمانية، يُمكن لـ OctFormer التوسع بسهولة، ويحقق أداءً متميزًا في سلسلة من معايير التصنيف والكشف ثلاثي الأبعاد، متفوّقًا على النماذج القائمة على الشبكات العصبية التلافيفية النادرة (sparse-voxel-based CNNs) والتحويلات السابقة المبنية على السحابات النقطية من حيث الكفاءة والفعالية. وبشكل ملحوظ، على مجموعة بيانات ScanNet200 الصعبة، تتفوّق OctFormer على الشبكات القائمة على المكعبات النادرة بنسبة 7.3 في متوسط مؤشر التشابه (mIoU). يُتاح الكود والنموذج المدرب على الرابط: https://wang-ps.github.io/octformer.