كروس موكو: التعلم المتماسك التتابعي متعدد الوسائط للسحابة النقطية
السحابة النقطية هي بيانات هندسية ثلاثية الأبعاد تفتقر إلى بنية محددة وتمتاز بالثبات تجاه التبديل (Permutation-invariant). وقد حظيت تطبيقات السحاب النقطية باهتمام كبير مؤخرًا في مجال مهام الرؤية الحاسوبية. ومع ذلك، فإن معظم الدراسات الحالية حول السحاب النقطية تعتمد على التعلم المراقب باستخدام بيانات مُعلَّمة كبيرة، وهي بيانات مكلفة وصعبة في جمعها. ولحل هذه المشكلة، أظهر التعلم غير المراقب، وبشكل خاص التعلم الذاتي (self-supervised learning)، أداءً واعدًا في العديد من المهام المتعلقة بالرؤية الحاسوبية ثنائية الأبعاد، ويُعدّ لديه إمكانات كبيرة في تطبيقات الرؤية الحاسوبية ثلاثية الأبعاد. في هذه الدراسة، نقدم طريقة جديدة للتعلم الذاتي تُسمى CrossMoCo، والتي تتعلم تمثيلات بيانات السحابة النقطية غير المُعلَّمة ضمن بيئة متعددة الوسائط، وتستفيد أيضًا من الصور ثنائية الأبعاد التي يتم توليدُها من السحاب النقطية. تتفوّق CrossMoCo على الطرق الحالية في التعلم الذاتي متعدد الوسائط على السحاب النقطية من خلال إدخال مفهومين جديدين: التعلم التبايني بالزخم باستخدام عدد أكبر من العينات السلبية، والتباين الداخلي متعدد الرؤى داخل الوسيط. يتعلم المكون الأول من خلال مُشفِّر مباشر (online encoder) ومُشفِّر زماني (momentum encoder) مع عدد كبير من العينات السلبية، مما يوفر إشارات تعلُّم متسقة. أما المكون الثاني، فيفرض التماسك بين الرؤى المختلفة للعينات من نفس الوسيط، وبالتالي يُحسّن التمثيل متعدد الوسائط. أجرينا دراسات واسعة على مجموعتي بيانات شهيرتين (ModelNet40 وScanObjectNN) في مهام التصنيف الخطي والتعلم القليل النموذج (few-shot learning). تُظهر النتائج أن CrossMoCo تحقق أداءً متفوّقًا مقارنة بالطرق الحالية في كلا المهمتين على كلا المجموعتين، مع تحقيق تحسن يصل إلى 4.36% في التصنيف الخطي، وصولاً إلى 9.2% في مهام التعلم القليل النموذج. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/snehaputul/CrossMoCo.