نقطة العمق الأقرب: تعلم التمثيلات لتسجيل السحابة النقطية

تسجيل السحابة النقطية هو مشكلة رئيسية في مجال الرؤية الحاسوبية المطبقة على الروبوتات، التصوير الطبي، وغيرها من التطبيقات. تتمثل هذه المشكلة في العثور على تحويلة صلبة (rigid transformation) من سحابة نقاط إلى أخرى بحيث تتم مطابقتها. توفر خوارزميات تسجيل أقرب نقطة المتكررة (Iterative Closest Point - ICP) وأصنافها طرقًا بسيطة وسهلة التنفيذ لهذه المهمة، ولكن هذه الخوارزميات قد تتقارب مع حلول محلية غير صحيحة (spurious local optima). لمعالجة الحلول المحلية وغير ذلك من الصعوبات في خط أنابيب ICP، نقترح طريقة قائمة على التعلم، والتي أطلقنا عليها اسم Deep Closest Point (DCP)، مستوحاة من التقنيات الحديثة في الرؤية الحاسوبية ومعالجة اللغة الطبيعية. يتكون نموذجنا من ثلاثة أجزاء: شبكة تمثيل السحابة النقطية (point cloud embedding network)، ووحدة تعتمد على الانتباه مدمجة مع طبقة توليد المؤشرات (pointer generation layer) لتقريب التوافق التركيبي (combinatorial matching)، وطبقة تحليل القيم المفردة القابلة للمفاضلة (differentiable singular value decomposition - SVD) لاستخراج التحويلة الصلبة النهائية. نقوم بتدريب نموذجنا بشكل شامل باستخدام مجموعة بيانات ModelNet40 ونظهر في عدة إعدادات أنه يتفوق على ICP وأصنافها (مثل Go-ICP، FGR) وعلى الطريقة القائمة على التعلم التي اقترحت حديثًا PointNetLK. بالإضافة إلى توفير تقنية تسجيل متقدمة، نقيم مدى ملاءمة الخصائص التي تعلمناها عند نقلها إلى كائنات غير مرئية سابقًا. كما نقدم تحليلًا أوليًا لنموذجنا المتعلم لفهم ما إذا كانت الخصائص الخاصة بالمنطقة و/أو الخصائص العالمية تسهل التسجيل الصلب.