HyperAIHyperAI
منذ 11 أيام

Metric3D: نحو التنبؤ بالقياس الثلاثي بعدم الحاجة إلى التدريب المسبق من صورة واحدة

Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen
Metric3D: نحو التنبؤ بالقياس الثلاثي بعدم الحاجة إلى التدريب المسبق من صورة واحدة
الملخص

إعادة بناء المشاهد ثلاثية الأبعاد الدقيقة من الصور هي مهمة بصرية قديمة الأصل. وبسبب الطبيعة غير المحددة بشكل جيد لمشكلة إعادة البناء من صورة واحدة، فإن معظم الطرق المتعارف عليها تُبنى على هندسة الرؤية المتعددة. تُظهر الطرق الرائدة في تقدير العمق المقياسي من منظور واحد (SOTA) قدرة محدودة على التعامل مع نموذج كاميرا واحد فقط، ولا يمكنها إجراء تدريب مختلط بسبب الغموض المقياسي. في الوقت نفسه، تحقق الطرق الرائدة من منظور واحد، التي تم تدريبها على مجموعات بيانات كبيرة ومختلطة، تعميمًا بدون تدريب (zero-shot) من خلال تعلم عمق يظل ثابتًا تحت التحولات التآلفية، لكنها لا تستطيع استعادة المقاييس الحقيقية في العالم. في هذه الدراسة، نُظهر أن المفتاح لنموذج عميق مقياسي من منظور واحد بدون تدريب يكمن في الجمع بين التدريب على بيانات واسعة النطاق وحل غموض المقياس الناتج عن نماذج كاميرات متنوعة. نقترح وحدة تحويل فضائية قياسية للكاميرا، والتي تعالج بشكل صريح مشكلات الغموض، ويمكن دمجها بسهولة في النماذج الحالية من منظور واحد. وباستخدام هذه الوحدة، يمكن تدريب النماذج من منظور واحد بشكل مستقر على أكثر من 8 ملايين صورة تشمل آلاف نماذج الكاميرات، مما يؤدي إلى تعميم بدون تدريب على صور من البيئة الحقيقية (in-the-wild) ذات إعدادات كاميرات غير مسبوقة. تُظهر التجارب أداءً رائدًا (SOTA) لطريقتنا على 7 معايير بدون تدريب. وبشكل ملحوظ، فازت طريقتنا بالمركز الأول في مسابقة تقدير العمق من منظور واحد للدورة الثانية. تتيح طريقتنا استعادة دقيقة للهياكل ثلاثية الأبعاد المقياسية على صور مجمعة عشوائيًا من الإنترنت، مما يفتح الباب أمام إمكانية تطبيق قياسات ثلاثية الأبعاد من صورة واحدة بشكل معقول. وتمتد الفوائد المحتملة إلى المهام التالية، التي يمكن تحسينها بشكل كبير من خلال مجرد إدخال نموذجنا. على سبيل المثال، يقلل نموذجنا من مشكلة الانحراف في المقياس في تقنيات الملاحة والرسم المقياسي من منظور واحد (monocular-SLAM) (الشكل 1)، مما يؤدي إلى خرائط كثيفة ذات مقياس دقيق عالي الجودة. يُمكن الاطلاع على الكود من خلال الرابط التالي: https://github.com/YvanYin/Metric3D.

Metric3D: نحو التنبؤ بالقياس الثلاثي بعدم الحاجة إلى التدريب المسبق من صورة واحدة | أحدث الأوراق البحثية | HyperAI