HyperAIHyperAI
منذ 17 أيام

TransMVSNet: شبكة رؤية متعددة الأوجه ملمّة بالسياق العالمي باستخدام المحولات

Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu
TransMVSNet: شبكة رؤية متعددة الأوجه ملمّة بالسياق العالمي باستخدام المحولات
الملخص

في هذه الورقة، نقدّم نموذج TransMVSNet، استنادًا إلى استكشافنا لمهام مطابقة الميزات في التصوير ثلاثي الأبعاد من عدة مناظر (MVS). نُشبّه مسألة MVS بطبيعتها كمهمة مطابقة ميزات، ولهذا نقترح نموذجًا قويًا يُسمى "مُحول مطابقة الميزات" (FMT)، يعتمد على الانتباه الداخلي (الذاتي) والخارجي (العابر) لجمع معلومات السياق على مدى طويل داخل الصور وعبرها. ولتسهيل تكيّف FMT بشكل أفضل، نستخدم وحدة مجال الاستقبال التكيفي (ARF) لضمان انتقال سلس في نطاقات الميزات، بالإضافة إلى استخدام مسار ميزات لنقل الميزات المُحولة والمشتقات عبر المراحل المختلفة من المقاييس. علاوةً على ذلك، نطبّق ارتباط الميزات الزوجي لقياس درجة التشابه بين الميزات، ونستخدم دالة خسارة تركيزية تقلل من الغموض لتعزيز عملية التدريب المراقب. إلى حد معرفتنا، فإن TransMVSNet يُعدّ أول محاولة تستخدم نموذج الـ Transformer في مهام MVS. ونتيجة لذلك، يحقق أداءً متميزًا على مجموعة بيانات DTU، ومحفظة التقييم Tanks and Temples، ومجموعة بيانات BlendedMVS. سيتم إتاحة الشفرة البرمجية الخاصة بنا عبر الرابط: https://github.com/MegviiRobot/TransMVSNet.

TransMVSNet: شبكة رؤية متعددة الأوجه ملمّة بالسياق العالمي باستخدام المحولات | أحدث الأوراق البحثية | HyperAI