مُحَوِّل سحابة النقاط الهرمي للتحديد المكاني على نطاق واسع

في الآونة الأخيرة، حققت وصوف التوصيفات القائمة على التعلم العميق للسحابات النقطية نتائج مبهرة في مهمة التعرف على المكان. ومع ذلك، نظرًا لطبيعة السحابات النقطية الكثيفة نسبيًا، ما زال استخلاص السمات المحلية التمييزية للسحابات النقطية لتكوين وصوف عالمي فعّال مشكلة صعبة. في هذا البحث، نقترح شبكة تحويلية هرمية للسحابات النقطية (PPT-Net) لاستخلاص وصوف عالمية تمييزية من السحابات النقطية بهدف استرجاع فعّال. بشكل خاص، نطور أولًا وحدة تحويلية هرمية للسحابات النقطية التي تتعلم بشكل تكيفي العلاقات المكانية بين الرسوم البيانية المحلية المختلفة ذات الجيران k الأقرب (k-NN) للسحابات النقطية، حيث نُقدّم انتباهًا ذاتيًا مجمّعًا (grouped self-attention) لاستخلاص السمات المحلية التمييزية للسحابات النقطية. علاوةً على ذلك، لا يعزز هذا الانتباه المجمّع فقط الاعتماديات طويلة المدى للسحابات النقطية، بل يقلل أيضًا من التكلفة الحسابية. وللحصول على وصوف عالمية تمييزية، نُنشئ وحدة VLAD هرمية لدمج خرائط السمات متعددة المقياس للسحابات النقطية في وصوف عالمية. وباستخدام عملية تجميع VLAD على خرائط السمات متعددة المقياس، نطبّق آلية توجيه السياق (context gating) على الوصوف العالمية المتعددة لتحديد أوزان تكيفية للسياقات العالمية متعددة المقياس، مما يُدمجها في الوصوف العالمية النهائية. أظهرت النتائج التجريبية على مجموعة بيانات أكسفورد وعلى ثلاث مجموعات بيانات داخلية أن طريقتنا تحقق الحد الأقصى من الأداء (state-of-the-art) في مهمة التعرف على المكان القائمة على السحابات النقطية. يمكن الوصول إلى الكود عبر الرابط: https://github.com/fpthink/PPT-Net.