دع الصور تمنحك أكثر: التدريب عبر الوسائط للسحابات النقطية لتحليل الشكل

على الرغم من التقدم المحرز مؤخرًا في تحليل سحابات النقاط، فإن النموذج التقليدي لتعلم التمثيل من وسيلة واحدة يواجه تدريجيًا حدوده. في هذا العمل، نخطو خطوة نحو تمثيل أكثر تمييزًا لسحابات النقاط ثلاثية الأبعاد من خلال الاستفادة الكاملة من الصور التي تحتوي بشكل طبيعي على معلومات ظاهرية غنية، مثل النسيج واللون والظل. بشكل خاص، يقدّم هذا البحث استراتيجية بسيطة ولكن فعّالة لتدريب سحابات النقاط عبر الوسائط (PointCMT)، والتي تستخدم الصور من زوايا الرؤية (أي الصور ثنائية الأبعاد المُرسَّمة أو المُشَرَّطة للجسم ثلاثي الأبعاد) لتعزيز تحليل سحابات النقاط. في الممارسة العملية، وللتمكن من استخلاص معرفة مساعدة فعّالة من الصور من زوايا الرؤية، نطور إطارًا يعتمد على نموذج المعلم والطالب، ونُصَفِّر التعلّم عبر الوسائط كمشكلة تبادل المعرفة. تُزيل PointCMT الفرق في التوزيع بين الوسائط المختلفة من خلال معايير مبتكرة لتحسين الميزات والClassifier، وتفادي التحويل السلبي المحتمل بشكل فعّال. يُلاحظ أن PointCMT تحسّن تمثيل النقاط وحدها دون الحاجة إلى تعديل البنية المعمارية. وقد أثبتت التجارب الكافية تحسنًا ملحوظًا على مجموعة متنوعة من البيانات باستخدام هيكلات متميزة، حيث تحقق PointNet++ وPointMLP أداءً يُعدّ من أفضل الأداء على معايير معيارية، بتحقيق دقة 94.4% و86.7% على مجموعتي بيانات ModelNet40 وScanObjectNN على التوالي. سيتم نشر الكود على الرابط: https://github.com/ZhanHeshen/PointCMT.