HyperAI
منذ 18 أيام

VGGT: محول الهندسة المرئية المُرتكز على الأرضيات

Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny
VGGT: محول الهندسة المرئية المُرتكز على الأرضيات
الملخص

نقدم شبكة VGGT العصبية التغذية التقدمية، التي تُستنتج مباشرة جميع الخصائص الأساسية الثلاثية الأبعاد لمشهد من إحدى صوره أو بضعة صور أو مئات الصور. هذا النهج يمثل خطوة للأمام في رؤية الحاسوب ثلاثية الأبعاد، حيث كانت النماذج عادةً مقيدة ومخصصة لمهمة واحدة. كما أنه بسيط وكفء، بإمكانه إعادة بناء الصور في أقل من ثانية، مع الاحتفاظ بالأداء الأفضل مقارنة بالبدائل التي تتطلب المعالجة اللاحقة باستخدام تقنيات هندسة الرؤية البصرية. تحقق الشبكة نتائجًا رائدة في العديد من المهام ثلاثية الأبعاد، بما في ذلك تقدير معلمات الكاميرا، تقدير العمق متعدد الآراء (multi-view depth estimation)، إعادة بناء السحابة الكثيفة من النقاط، وتتبع النقاط الثلاثية الأبعاد. كما نوضح أن استخدام VGGT المدرب مسبقًا كأساس للخصائص يعزز بشكل كبير المهام اللاحقة مثل تتبع النقاط غير المرنة وإعادة تركيب المشاهد الجديدة بطريقة تغذية تقدمية. الرمز والنماذج متاحة للعامة على هذا الرابط: https://example.com/vggt 请注意,由于阿拉伯语的书写习惯是从右向左,因此在实际文档中,链接应从右向左书写。例如:https://example.com/vggt 应写作:vggt/moc.elpmexu//:sptth