ULIP: تعلم تمثيل موحد للغة والصور وسحابات النقاط لفهم ثلاثي الأبعاد

قدرات التعرف في النماذج ثلاثية الأبعاد الأكثر تقدمًا حاليًا محدودة بسبب مجموعات البيانات التي تحتوي على عدد قليل من البيانات المصحوبة بالتعليقات وقائمة فئات محددة مسبقًا. وفي نظيرتها ثنائية الأبعاد، أظهرت التطورات الحديثة أن مشاكل مشابهة يمكن تخفيفها بشكل كبير من خلال استخدام المعرفة من وسائط أخرى مثل اللغة. مستوحىً من هذا، يمكن أن يكون الاستفادة من المعلومات متعددة الوسائط لنمط ثلاثي الأبعاد واعدًا لتحسين الفهم الثلاثي الأبعاد في ظل نظام بيانات محدود، ولكن هذا المسار البحثي لم يتم دراسته بشكل جيد. لذلك، نقدم ULIP لتعلم تمثيل موحد للصور والنصوص والسحابات النقطية ثلاثية الأبعاد عن طريق التدريب المسبق باستخدام ثلاثيات الكائنات من الوسائط الثلاث. للتغلب على نقص ثلاثيات التدريب، يستفيد ULIP من نموذج رؤية-لغة مدرب مسبقًا والذي قد تعلم بالفعل فضاءً بصريًا ولغويًا مشتركًا عبر التدريب مع أزواج صورة-نص عديدة للغاية. ثم يتعلم ULIP فضاء تمثيلي ثلاثي الأبعاد موازٍ للفضاء البصري-النصي المشترك باستخدام عدد قليل من الثلاثيات المصنعة تلقائيًا. لا يعتمد ULIP على شبكات الخلفية ثلاثية الأبعاد ويتمكن بسهولة من الاندماج في أي هندسة ثلاثية الأبعاد. تُظهر التجارب أن ULIP يحسن بشكل فعال أداء العديد من الهياكل الخلفية ثلاثية الأبعاد الحديثة ببساطة عبر تدريبها المسبق على ShapeNet55 باستخدام إطارنا، مما يؤدي إلى تحقيق أفضل الأداء في تصنيف الكائنات الثلاثية الأبعاد القياسي وفي تصنيف الكائنات الثلاثية الأبعاد بدون تصوير (Zero-Shot) على ModelNet40 وScanObjectNN. كما يحسن ULIP أداء PointMLP بنسبة حوالي 3% في تصنيف الكائنات الثلاثية الأبعاد على ScanObjectNN، ويتفوق على PointCLIP بنسبة 28.8% في دقة المرتبة الأولى (Top-1 Accuracy) لتصنيف الكائنات الثلاثية الأبعاد بدون تصوير (Zero-Shot) على ModelNet40. لقد أطلقنا شفرتنا المصدر والموديلات المدربة مسبقًا على الرابط https://github.com/salesforce/ULIP.