HyperAIHyperAI
منذ 2 أشهر

MVSFormer: التصوير ثلاثي الأبعاد متعدد المناظر من خلال تعلم الخصائص الصورية المتينة وعمق القائم على درجة الحرارة

Chenjie Cao; Xinlin Ren; Yanwei Fu
MVSFormer: التصوير ثلاثي الأبعاد متعدد المناظر من خلال تعلم الخصائص الصورية المتينة وعمق القائم على درجة الحرارة
الملخص

تعلم تمثيل الميزات هو الوصفة الرئيسية للنماذج التعلمية للصورة ثلاثية الأبعاد من عدة زوايا (MVS). ومع ذلك، فإن الشبكات الهرمية للميزات (FPN) التقليدية، كمستخلص ميزات شائع في النماذج التعلمية لـ MVS، تعاني من تمثيلات ميزات ضعيفة في المناطق المنعكسة والخالية من النسيج، مما يحد من تعميم MVS. وحتى عند استخدام FPN مع شبكات العصبونات التلافيفية (CNN) المدربة مسبقًا، لا تزال هذه المشكلات قائمة. من ناحية أخرى، حققت نماذج تحويل الرؤية (ViT) نجاحًا بارزًا في العديد من مهام الرؤية ثنائية الأبعاد. لذلك، نتساءل عما إذا كانت ViT يمكن أن تسهل تعلم الميزات في MVS؟ في هذا البحث، نقترح شبكة MVS محسنة بنموذج ViT مدرب مسبقًا تُسمى MVSFormer، والتي يمكنها تعلم تمثيلات ميزات أكثر ثباتًا بفضل الأولويات المعلوماتية التي توفرها ViT. يمكن للـ MVSFormer الذي تم تعديله باستخدام ViTs هرمية ذات آليات انتباه فعالة تحقيق تحسين بارز على أساس FPNs. بالإضافة إلى ذلك، تم اقتراح بديل آخر لـ MVSFormer مع أوزان ViT ثابتة. هذا يخفف بشكل كبير من تكلفة التدريب مع أداء تنافسي يتمتع به بفضل خريطة الانتباه التي توفرها عملية التدريب الذاتي المسبق. يمكن تعميم MVSFormer على دقة إدخال مختلفة مع التدريب متعدد المقاييس الفعال الذي يتم تعزيزه بتراكم التدرج. علاوة على ذلك، نناقش نقاط القوة والضعف للطرق القائمة على التصنيف والتوقع في MVS، ونقترح تقريبًا لم-unify-ها باستخدام استراتيجية تعتمد على درجة الحرارة. حقق MVSFormer أفضل الأداء على مجموعة بيانات DTU. وبشكل خاص، يحتل MVSFormer المركز الأول في كلٍ من المجموعتين الوسيطتين والمتطورتين ضمن قائمة Tanks-and-Temples التنافسية للغاية.

MVSFormer: التصوير ثلاثي الأبعاد متعدد المناظر من خلال تعلم الخصائص الصورية المتينة وعمق القائم على درجة الحرارة | أحدث الأوراق البحثية | HyperAI