HyperAIHyperAI
منذ 2 أشهر

OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق

Ye Mao; Junpeng Jing; Krystian Mikolajczyk
OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق
الملخص

الطرق الحديثة لتعلم تمثيلات العالم المفتوح ثلاثية الأبعاد باستخدام نماذج الرؤية واللغة (VLMs) لتحقيق مواءمة بين السحابة النقطية ثلاثية الأبعاد والمعلومات الصورية والنصية أظهرت أداءً فائقًا في التصنيف الثلاثي الأبعاد بدون تدريب سابق (zero-shot). ومع ذلك، فإن الصور المرسومة باستخدام نماذج CAD لهذه المواءمة غالبًا ما تكون خالية من الواقعية وتعدد الملمس، مما يقوض صلابة المواءمة. بالإضافة إلى ذلك، فإن الفرق الكبير في الحجم بين مجموعات البيانات المستخدمة للتدريب الأولي ثنائية وثلاثية الأبعاد يؤكد الحاجة إلى استراتيجيات فعالة لنقل قدرات التمثيل في نماذج الرؤية واللغة إلى تعلم ثلاثي الأبعاد.في هذا البحث، نقدم OpenDlign، وهو نموذج عالم مفتوح جديد ثلاثي الأبعاد يستخدم صورًا مُحاذاة العمق تم إنشاؤها بواسطة نموذج الانتشار (diffusion model) لتحقيق موائمة متعددة الوسائط أكثر صلابة. تتميز هذه الصور بتنوع أكبر في الملمس مقارنة بالصور المرسومة باستخدام CAD بسبب الطبيعة العشوائية لنموذج الانتشار. من خلال تحسين خط أنابيب إسقاط الخريطة العميقة وتصميم دوافع خاصة بالعمق، يتمكن OpenDlign من الاستفادة من المعرفة الغنية في النماذج المدربة مسبقًا للرؤية واللغة لتعلم التمثيلات الثلاثية الأبعاد مع تحسينات دقيقة بسيطة. أظهرت تجاربنا أن OpenDlign يحقق أداءً عاليًا بدون تدريب سابق وبقليل من التدريب على مجموعة مهام ثلاثية أبعاد متنوعة، رغم أنه تم ضبطه بدقة فقط على 6 مليون معلمة باستخدام مجموعة بيانات ShapeNet المحدودة. في التصنيف بدون تدريب سابق، يتفوق OpenDlign على النماذج السابقة بنسبة 8.0% على ModelNet40 و16.4% على OmniObject3D. بالإضافة إلى ذلك، فإن استخدام الصور المحاذاة للعمق للموائمة المتعددة الوسائط يعزز باستمرار أداء النماذج الأخرى الرائدة في المجال.

OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق | أحدث الأوراق البحثية | HyperAI