منذ 19 أيام

PVT: محول النقطة-البلاستيك للتعلم من سحابات النقط

Cheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu

الملخص

الهيكلية النقيّة المبنية على المُحَوِّل (Transformer) التي تم تطويرها حديثًا قد حققت دقة مُرضية في معايير تعلّم سحابة النقاط مقارنةً بالشبكات العصبية التلافيفية (CNN). ومع ذلك، فإن المُحَوِّلات الحالية لسحابة النقاط تكون مكلفة من حيث الحسابات، نظرًا لاستهلاكها وقتًا كبيرًا في هيكلة البيانات غير المنتظمة. ولحل هذه النقطة الضعيفة، نقدّم وحدة الانتباه النافذة النادرة (Sparse Window Attention - SWA)، التي تجمع ميزات محلية خشنة من المكعبات غير الفارغة، مما يسمح لنا بالتجاوز عن عملية هيكلة البيانات غير المنتظمة والحسابات غير الضرورية للمكعبات الفارغة، ويُحقق أيضًا تعقيدًا حسابيًا خطيًا بالنسبة إلى دقة المكعبات. وفي الوقت نفسه، لجمع ميزات دقيقة تتعلق بالشكل العام، نقدّم وحدة الانتباه النسبي (Relative Attention - RA)، وهي نسخة أكثر مقاومة من الانتباه الذاتي تجاه التحولات الصلبة للكائنات. وباستخدام كل من وحدتي SWA وRA، نُنشئ بنية عصبية تُسمى PVT، والتي تدمج هاتين الوحدتين ضمن إطار موحد لتعلم سحابة النقاط. مقارنةً بالنماذج السابقة القائمة على المُحَوِّل أو الانتباه، تحقق طريقة العمل لدينا أفضل دقة تصل إلى 94.0% في معيار التصنيف، مع متوسط تسريع في الاستدلال بنسبة 10 أضعاف. كما أثبتت التجارب الواسعة فعالية PVT في معايير التجزئة الجزئية والتحليل الدلالي (بما يعادل 86.6% و69.2% على التوالي من متوسط مقياس التداخل على التكرار - mIoU).