OpenScene: فهم المشاهد ثلاثية الأبعاد باستخدام المفردات المفتوحة

تستند النماذج التقليدية لفهم المشاهد ثلاثية الأبعاد إلى مجموعات بيانات ثلاثية الأبعاد مصنفة لتدريب نموذج على مهمة واحدة تحت إشراف. نقترح "OpenScene"، وهو نهج بديل حيث يقوم النموذج بتوقع الخصائص الكثيفة للنقاط ثلاثية الأبعاد التي يتم تضمينها مع النصوص وبيكسلات الصور في فضاء خصائص CLIP (كليب). هذا النهج بدون رؤية سابقة يمكّن التدريب المستقل عن المهمة والاستفسارات ذات المفردات المفتوحة. على سبيل المثال، للقيام بفصل الدلالات الثلاثي الأبعاد بدون رؤية سابقة بأفضل ما يمكن، يُستنتج أولاً خصائص CLIP لكل نقطة ثلاثية الأبعاد ثم يتم تصنيفها بناءً على تشابهها مع تضمينات مسميات الفئات العشوائية. وبشكل أكثر إثارة للاهتمام، يمكّن هذا النهج من مجموعة من تطبيقات فهم المشاهد ذات المفردات المفتوحة التي لم يتم تنفيذها من قبل. على سبيل المثال، يسمح للمستخدم بإدخال استفسار نصي عشوائي ومن ثم رؤية خريطة حرارية تشير إلى أجزاء المشهد التي تتطابق مع الاستفسار. نهجنا فعال في تحديد الأجسام، المواد، القدرات الوظيفية، الأنشطة وأنواع الغرف في مشاهد ثلاثية أبعاد معقدة، وكل ذلك باستخدام نموذج واحد تم تدريبه دون أي بيانات ثلاثية الأبعاد مصنفة.