منذ 2 أشهر

MVSFormer++: كشف الشيطان في تفاصيل الترانسفورمر للاستريو متعدد المناظر

Chenjie Cao; Xinlin Ren; Yanwei Fu

الملخص

التطورات الحديثة في طرق التصوير ثلاثي الأبعاد متعدد الآراء (MVS) القائمة على التعلم قد أبرزت بشكل بارز النماذج المستندة إلى المحولات (Transformers) مع آليات الانتباه (Attention Mechanisms). ومع ذلك، لم تحقق الأساليب الحالية تحقيقًا شاملًا للتأثير العميق للمحوّلات على مختلف وحدات MVS، مما أدى إلى قدرات محدودة في تقدير العمق. في هذا البحث، نقدم MVSFormer++، وهو طريقة تهدف إلى تعظيم الخصائص الذاتية لآليات الانتباه بعناية لتحسين مكونات مختلفة من خط أنابيب MVS. رسمياً، يشمل نهجنا دمج المعلومات بين الآراء في نموذج DINOv2 المدرب مسبقًا لتسهيل التعلم MVS. بالإضافة إلى ذلك، نستخدم آليات انتباه مختلفة للشفرة المميزة (Feature Encoder) وتقييد حجم التكلفة (Cost Volume Regularization)، مع التركيز على تجميع المميزات والمساحة على التوالي. كما كشفنا أن بعض التفاصيل التصميمية ستؤثر بشكل كبير على أداء وحدات المحولات في MVS، بما في ذلك الترميز الموضعي ثلاثي الأبعاد المُعَمَّر (Normalized 3D Positional Encoding)، وتوسيع الانتباه المرن (Adaptive Attention Scaling)، وموقع التطبيع الطبقي (Layer Normalization). تؤكد التجارب الشاملة على DTU وTanks-and-Temples وBlendedMVS وETH3D فعالية الطريقة المقترحة. وبشكل خاص، يحقق MVSFormer++ أفضل الأداء الحالي على مقاييس DTU وTanks-and-Temples الصعبة.