التعلم التمثيلي ذاتي الفضاء والزمان لسحابات النقاط ثلاثية الأبعاد

حتى الآن، لا تزال العديد من مهام فهم المشاهد ثلاثية الأبعاد تعاني من نقص في النماذج المدربة بشكل عملي وقابل للتعميم، وذلك بشكل أساسي بسبب الطبيعة المعقدة لمهام فهم المشاهد ثلاثية الأبعاد والاختلافات الكبيرة التي تُدخلها زوايا الكاميرا، الإضاءة، الاختفاء الجزئي وغيرها. في هذا البحث، نواجه هذه التحديات من خلال تقديم إطار للتعلم التمثيلي الزماني-المكاني (STRL)، قادر على التعلم من السحب النقطية ثلاثية الأبعاد غير المصنفة بطريقة ذاتية-إشرافية. مستوحين من طريقة تعلم الرضع من البيانات البصرية في البيئة الحقيقية، نستكشف المؤشرات الزمانية-المكانية الغنية المستخرجة من البيانات ثلاثية الأبعاد. تحديداً، يستخدم STRL إطارين متصلين زمنياً من سلسلة سحب نقطية ثلاثية الأبعاد كمدخل، يحولهما باستخدام زيادة البيانات المكانية، ويتعلم التمثيل الثابت ذاتي-إشرافياً. لتأكيد فعالية STRL، أجرينا تجارب واسعة على ثلاثة أنواع (مزيفة، داخلية، وخارجية) من قواعد البيانات. أظهرت نتائج التجارب أنه بالمقارنة مع طرق التعلم الإشرافي، يساعد التمثيل الذاتي-إشرافي الذي تم تعلمه على تحقيق أداء مكافئ أو حتى أفضل للعديد من النماذج مع القدرة على تعميم النماذج المدربة مسبقًا إلى المهام اللاحقة مثل تصنيف الشكل ثلاثي الأبعاد (3D Shape Classification)، اكتشاف الأجسام الثلاثية الأبعاد (3D Object Detection)، والتقسيم الدلالي الثلاثي الأبعاد (3D Semantic Segmentation). بالإضافة إلى ذلك، فإن المؤشرات السياقية الزمانية-المكانية المضمنة في السحب النقطية ثلاثية الأبعاد تحسن بشكل كبير التمثيلات المستخرجة.