HyperAIHyperAI

Command Palette

Search for a command to run...

PonderV2: تمهيد الطريق لنموذج أساسي ثلاثي الأبعاد من خلال نموذج تدريب مسبق شامل

الملخص

بالمقارنة مع العديد من نماذج الأساس في معالجة اللغة الطبيعية (NLP) والرؤية ثنائية الأبعاد، فإن تعلم نموذج أساس ثلاثي الأبعاد يشكل تحديات أكبر بكثير. وهذا يعود بشكل أساسي إلى التباين والتنوع الكامن في البيانات ومهمات ما بعد التدريب. في هذا البحث، نقدم إطارًا جديدًا للتدريب المسبق الشامل على البيانات ثلاثية الأبعاد مصمم لتسهيل اكتساب تمثيلات فعالة ثلاثية الأبعاد، مما يضع مسارًا نحو نماذج الأساس الثلاثية الأبعاد. بالنظر إلى أن الخصائص الثلاثية الأبعاد المفيدة يجب أن تحتوي على مؤشرات هندسية وظاهرية غنية يمكن استخدامها لإنشاء صور واقعية، فقد اقترحنا تعلم التمثيلات الثلاثية الأبعاد باستخدام الرسم العصبي القابل للمفاضلة. نقوم بتدريب العمود الفقري الثلاثي البعد باستخدام محرك رسم عصبي حجمي مبتكر من خلال مقارنة الصور المرسومة بالصور الحقيقية. ومن الجدير بالذكر أن منهجيتنا تدمج بسلاسة المحول الثلاثي الأبعاد الذي تم تعلمه في مختلف مهمات ما بعد التدريب. وتتضمن هذه المهمات ليس فقط التحديات العليا مثل الكشف ثلاثي الأبعاد والتقسيم، ولكن أيضًا الأهداف الدنيا مثل إعادة بناء البيانات ثلاثية الأبعاد وإنشاء الصور، والتي تغطي السيناريوهات الداخلية والخارجية على حد سواء. بالإضافة إلى ذلك، نوضح أيضًا قدرة التدريب المسبق للعمود الفقري ثنائي الأبعاد باستخدام المنهجية المقترحة، مما يتفوق على طرق التدريب التقليدية بمقدار كبير. وللمرة الأولى، حقق PonderV2 أداءً متقدمًا على 11 معيارًا داخليًا وخارجيًا، مما يشير إلى فعاليته. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/OpenGVLab/PonderV2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp