Command Palette
Search for a command to run...
كون체رتو: التعلم الذاتي المشترك ثنائي وثلاثي الأبعاد يُولِّد تمثيلات فضائية
Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

الملخص
يتعلم البشر المفاهيم المجردة من خلال التكامل الحسي متعدد الحواس، وعندما تتشكل هذه التمثيلات، يمكن عادةً استرجاعها من خلال وسيلة حسية واحدة فقط. مستلهمين من هذا المبدأ، نقدّم "كونسيerto" (Concerto)، وهو نموذج مبسط يحاكي تعلّم المفاهيم البشرية في مجال التفكير المكاني، يدمج بين تدريب ذاتي داخلي ثلاثي الأبعاد (3D intra-modal self-distillation) وتمثيلات مجمعة بين الأبعاد الثنائية والثلاثية (2D-3D cross-modal joint embedding). وعلى الرغم من بساطته، يُظهر "كونسيerto" تعلّم ميزات مكانيّة أكثر انسجامًا وغنىً بالمعلومات، كما تُظهر تجارب التصوير الصفرية (zero-shot visualizations) ذلك. ويتفوّق على نماذج التعلّم التلقائي ذات الأداء الريادي (SOTA) المنفصلة في الأبعاد الثنائية والثلاثية بنسبة 14.2% و4.8% على التوالي، كما يتفوّق على دمج ميزاتهما في مهام التحديد الخطي (linear probing) لفهم المشاهد الثلاثية. وباستخدام التدريب المُعدّل بالكامل (full fine-tuning)، يُسجّل "كونسيerto" نتائج رائدة جديدة (SOTA) في عدة معايير لفهم المشاهد (مثل 80.7% لـ mIoU على مجموعة بيانات ScanNet). ونقدّم أيضًا نسخة مُعدّلة من "كونسيerto" مُخصّصة لفهم المساحات في السحابات النقطية المُنفّذة من الفيديو (video-lifted point cloud)، إلى جانب مُحوّل خطي يُحول تمثيلات "كونسيerto" إلى فضاء اللغة في نموذج CLIP، ما يمكّن من إدراك مفتوح العوالم (open-world perception). تُظهر هذه النتائج أن "كونسيerto" يُولّد تمثيلات مكانيّة تتميّز باتساق هندسي ودلالاتي دقيق جدًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.