التمييز المقنع للسياق: إطار قابل للتوسع لتعلم التمثيل الثلاثي الأبعاد بدون تدريب

بصفتها عملًا رائدًا، تقوم PointContrast بتعلم تمثيل ثلاثي الأبعاد غير مُشرَّف من خلال الاستفادة من التعلم التناصي على الإطارات الخام من نوع RGB-D، وتكشف عن فعاليتها في مهام متعددة لاحقة. ومع ذلك، لم يظهر بعد اتجاه نحو التعلم غير المُشرَّف على نطاق واسع في ثلاثي الأبعاد بسبب عقبتين رئيسيتين: عدم كفاءة مطابقة إطارات RGB-D كمناظر تناصية، وظاهرة الانهيار النمطي المزعجة التي أُشير إليها في الأبحاث السابقة. وبتحويل هاتين العقبتين إلى حجارة تمهيدية تجريبية، نقترح أولًا إطارًا فعّالًا وكفؤًا للتعلم التناصي، يُولِّد المناظر التناصية مباشرة على السحاب النقطية على مستوى المشهد من خلال نموذج معالجة بيانات مُعدّة بعناية واستراتيجية عملية لخلط المناظر. ثانيًا، نُقدِّم التعلم الاسترجاعي ضمن إطار التعلم التناصي، مع تصميم دقيق لقنوات التناص المُقنّعة (contrastive cross masks)، والذي يهدف إلى استرجاع لون النقطة واتجاه العُدَس (surfel normal). يُعد إطارنا MSC (Masked Scene Contrast) قادرًا على استخلاص تمثيلات ثلاثية الأبعاد شاملة بكفاءة وأثر أكبر. كما أنه يُسرّع عملية التدريب المسبق بنسبة لا تقل عن 3 مرات، مع الحفاظ على أداء غير مُتضرّر مقارنةً بالدراسات السابقة. علاوةً على ذلك، يمكّن MSC من التدريب المسبق على نطاق واسع في ثلاثي الأبعاد عبر عدة مجموعات بيانات، مما يعزز الأداء بشكل إضافي ويحقق نتائج متفوقة في التخصيص (fine-tuning) على عدة مهام لاحقة، مثل تحقيق 75.5% من متوسط دقة التداخل (mIoU) في مجموعة التحقق من تصنيف المعنى لـ ScanNet.