HyperAIHyperAI

Command Palette

Search for a command to run...

MVSFormer++: كشف الشيطان في تفاصيل الترانسفورمر للاستريو متعدد المناظر

Chenjie Cao extsuperscript1,2,3,*† Xinlin Ren extsuperscript3,* Yanwei Fu extsuperscript1‡

الملخص

التطورات الحديثة في طرق التصوير ثلاثي الأبعاد متعدد الآراء (MVS) القائمة على التعلم قد أبرزت بشكل بارز النماذج المستندة إلى المحولات (Transformers) مع آليات الانتباه (Attention Mechanisms). ومع ذلك، لم تحقق الأساليب الحالية تحقيقًا شاملًا للتأثير العميق للمحوّلات على مختلف وحدات MVS، مما أدى إلى قدرات محدودة في تقدير العمق. في هذا البحث، نقدم MVSFormer++، وهو طريقة تهدف إلى تعظيم الخصائص الذاتية لآليات الانتباه بعناية لتحسين مكونات مختلفة من خط أنابيب MVS. رسمياً، يشمل نهجنا دمج المعلومات بين الآراء في نموذج DINOv2 المدرب مسبقًا لتسهيل التعلم MVS. بالإضافة إلى ذلك، نستخدم آليات انتباه مختلفة للشفرة المميزة (Feature Encoder) وتقييد حجم التكلفة (Cost Volume Regularization)، مع التركيز على تجميع المميزات والمساحة على التوالي. كما كشفنا أن بعض التفاصيل التصميمية ستؤثر بشكل كبير على أداء وحدات المحولات في MVS، بما في ذلك الترميز الموضعي ثلاثي الأبعاد المُعَمَّر (Normalized 3D Positional Encoding)، وتوسيع الانتباه المرن (Adaptive Attention Scaling)، وموقع التطبيع الطبقي (Layer Normalization). تؤكد التجارب الشاملة على DTU وTanks-and-Temples وBlendedMVS وETH3D فعالية الطريقة المقترحة. وبشكل خاص، يحقق MVSFormer++ أفضل الأداء الحالي على مقاييس DTU وTanks-and-Temples الصعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MVSFormer++: كشف الشيطان في تفاصيل الترانسفورمر للاستريو متعدد المناظر | مستندات | HyperAI