منذ 8 أشهر

الملخص

الطرق الحديثة لتعلم تمثيلات العالم المفتوح ثلاثية الأبعاد باستخدام نماذج الرؤية واللغة (VLMs) لتحقيق مواءمة بين السحابة النقطية ثلاثية الأبعاد والمعلومات الصورية والنصية أظهرت أداءً فائقًا في التصنيف الثلاثي الأبعاد بدون تدريب سابق (zero-shot). ومع ذلك، فإن الصور المرسومة باستخدام نماذج CAD لهذه المواءمة غالبًا ما تكون خالية من الواقعية وتعدد الملمس، مما يقوض صلابة المواءمة. بالإضافة إلى ذلك، فإن الفرق الكبير في الحجم بين مجموعات البيانات المستخدمة للتدريب الأولي ثنائية وثلاثية الأبعاد يؤكد الحاجة إلى استراتيجيات فعالة لنقل قدرات التمثيل في نماذج الرؤية واللغة إلى تعلم ثلاثي الأبعاد.في هذا البحث، نقدم OpenDlign، وهو نموذج عالم مفتوح جديد ثلاثي الأبعاد يستخدم صورًا مُحاذاة العمق تم إنشاؤها بواسطة نموذج الانتشار (diffusion model) لتحقيق موائمة متعددة الوسائط أكثر صلابة. تتميز هذه الصور بتنوع أكبر في الملمس مقارنة بالصور المرسومة باستخدام CAD بسبب الطبيعة العشوائية لنموذج الانتشار. من خلال تحسين خط أنابيب إسقاط الخريطة العميقة وتصميم دوافع خاصة بالعمق، يتمكن OpenDlign من الاستفادة من المعرفة الغنية في النماذج المدربة مسبقًا للرؤية واللغة لتعلم التمثيلات الثلاثية الأبعاد مع تحسينات دقيقة بسيطة. أظهرت تجاربنا أن OpenDlign يحقق أداءً عاليًا بدون تدريب سابق وبقليل من التدريب على مجموعة مهام ثلاثية أبعاد متنوعة، رغم أنه تم ضبطه بدقة فقط على 6 مليون معلمة باستخدام مجموعة بيانات ShapeNet المحدودة. في التصنيف بدون تدريب سابق، يتفوق OpenDlign على النماذج السابقة بنسبة 8.0% على ModelNet40 و16.4% على OmniObject3D. بالإضافة إلى ذلك، فإن استخدام الصور المحاذاة للعمق للموائمة المتعددة الوسائط يعزز باستمرار أداء النماذج الأخرى الرائدة في المجال.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OpenDlign: فهم السحابة النقطية في العالم المفتوح باستخدام الصور المنسجمة بالعمق

Ye Mao Junpeng Jing* Krystian Mikołajczyk

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters