HyperAIHyperAI
منذ 2 أشهر

PonderV2: تمهيد الطريق لنموذج أساسي ثلاثي الأبعاد من خلال نموذج تدريب مسبق شامل

Haoyi Zhu; Honghui Yang; Xiaoyang Wu; Di Huang; Sha Zhang; Xianglong He; Hengshuang Zhao; Chunhua Shen; Yu Qiao; Tong He; Wanli Ouyang
PonderV2: تمهيد الطريق لنموذج أساسي ثلاثي الأبعاد من خلال نموذج تدريب مسبق شامل
الملخص

بالمقارنة مع العديد من نماذج الأساس في معالجة اللغة الطبيعية (NLP) والرؤية ثنائية الأبعاد، فإن تعلم نموذج أساس ثلاثي الأبعاد يشكل تحديات أكبر بكثير. وهذا يعود بشكل أساسي إلى التباين والتنوع الكامن في البيانات ومهمات ما بعد التدريب. في هذا البحث، نقدم إطارًا جديدًا للتدريب المسبق الشامل على البيانات ثلاثية الأبعاد مصمم لتسهيل اكتساب تمثيلات فعالة ثلاثية الأبعاد، مما يضع مسارًا نحو نماذج الأساس الثلاثية الأبعاد. بالنظر إلى أن الخصائص الثلاثية الأبعاد المفيدة يجب أن تحتوي على مؤشرات هندسية وظاهرية غنية يمكن استخدامها لإنشاء صور واقعية، فقد اقترحنا تعلم التمثيلات الثلاثية الأبعاد باستخدام الرسم العصبي القابل للمفاضلة. نقوم بتدريب العمود الفقري الثلاثي البعد باستخدام محرك رسم عصبي حجمي مبتكر من خلال مقارنة الصور المرسومة بالصور الحقيقية. ومن الجدير بالذكر أن منهجيتنا تدمج بسلاسة المحول الثلاثي الأبعاد الذي تم تعلمه في مختلف مهمات ما بعد التدريب. وتتضمن هذه المهمات ليس فقط التحديات العليا مثل الكشف ثلاثي الأبعاد والتقسيم، ولكن أيضًا الأهداف الدنيا مثل إعادة بناء البيانات ثلاثية الأبعاد وإنشاء الصور، والتي تغطي السيناريوهات الداخلية والخارجية على حد سواء. بالإضافة إلى ذلك، نوضح أيضًا قدرة التدريب المسبق للعمود الفقري ثنائي الأبعاد باستخدام المنهجية المقترحة، مما يتفوق على طرق التدريب التقليدية بمقدار كبير. وللمرة الأولى، حقق PonderV2 أداءً متقدمًا على 11 معيارًا داخليًا وخارجيًا، مما يشير إلى فعاليته. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/OpenGVLab/PonderV2.

PonderV2: تمهيد الطريق لنموذج أساسي ثلاثي الأبعاد من خلال نموذج تدريب مسبق شامل | أحدث الأوراق البحثية | HyperAI