HyperAIHyperAI
منذ 11 أيام

Metric3Dv2: نموذج أساسي هندسي منفرد متعدد الاستخدامات لتقدير عمق مترية واتجاهات السطح بدون تدريب مسبق

Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Kaixuan Wang, Hao Chen, Gang Yu, Chunhua Shen, Shaojie Shen
Metric3Dv2: نموذج أساسي هندسي منفرد متعدد الاستخدامات لتقدير عمق مترية واتجاهات السطح بدون تدريب مسبق
الملخص

نقدّم Metric3D v2، نموذج أساسي هندسي لتقدير العمق المترى والاتجاه السطحي من صورة واحدة دون تدريب مسبق (zero-shot)، وهو أمر بالغ الأهمية لاسترداد البنية الثلاثية الأبعاد المترية. وعلى الرغم من أن العمق والاتجاه السطحي مرتبطان هندسيًا ومتناقضان بشكل كبير، إلا أنهما يمثلان تحديات مختلفة. تحقق الطرق الحديثة (SoTA) لتقدير العمق من منظور واحد تعميمًا بدون تدريب من خلال تعلّم عمق يظل ثابتًا تحت التحويلات التآلفية (affine-invariant)، وهو ما لا يمكنه استعادة القياسات الحقيقية في العالم. في المقابل، تواجه الطرق الحديثة لتقدير الاتجاه السطحي أداءً محدودًا دون تدريب مسبق بسبب نقص البيانات المُعلَّمة على نطاق واسع. لمعالجة هذه التحديات، نقترح حلولًا لكل من تقدير العمق المترى وتقدير الاتجاه السطحي. بالنسبة لتقدير العمق المترى، نُظهر أن الحل الجوهري لنموذج منظور واحد بدون تدريب يكمن في التغلب على الغموض المترى الناتج عن نماذج الكاميرات المختلفة وتدريب النموذج على بيانات ضخمة. ونُقدّم وحدة تحويل إلى فضاء كاميرا قياسي (canonical camera space transformation module)، والتي تعالج بشكل صريح مشكلة الغموض، ويمكن دمجها بسهولة في النماذج الحالية القائمة على منظور واحد. أما بالنسبة لتقدير الاتجاه السطحي، نُقترح وحدة تحسين مشتركة بين العمق والاتجاه السطحي (joint depth-normal optimization module)، لاستخلاص المعرفة المتنوعة من البيانات المترية للعمق، مما يمكّن نماذج التقدير من التعلّم ما وراء التسميات التقليدية للاتجاهات. وباستخدام هذه الوحدات، يمكن تدريب نماذجنا للعمق والاتجاه السطحي بشكل مستقر على أكثر من 16 مليون صورة مُجمعة من آلاف نماذج الكاميرات المختلفة، مع أنواع متنوعة من التسميات، مما يؤدي إلى تعميم بدون تدريب على صور واقعية (in-the-wild) تشمل إعدادات كاميرات غير مسبوقة. تتيح طريقة عملنا استردادًا دقيقًا للهياكل الثلاثية الأبعاد المترية من صور إنترنت تم جمعها عشوائيًا، مما يفتح الباب أمام إمكانية تطبيق قياسات ثلاثية الأبعاد موثوقة من صورة واحدة. يمكن زيارة صفحة المشروع على الرابط التالي: https://JUGGHM.github.io/Metric3Dv2.