TransMVSNet: شبكة رؤية متعددة الأوجه ملمّة بالسياق العالمي باستخدام المحولات

في هذه الورقة، نقدّم نموذج TransMVSNet، استنادًا إلى استكشافنا لمهام مطابقة الميزات في التصوير ثلاثي الأبعاد من عدة مناظر (MVS). نُشبّه مسألة MVS بطبيعتها كمهمة مطابقة ميزات، ولهذا نقترح نموذجًا قويًا يُسمى "مُحول مطابقة الميزات" (FMT)، يعتمد على الانتباه الداخلي (الذاتي) والخارجي (العابر) لجمع معلومات السياق على مدى طويل داخل الصور وعبرها. ولتسهيل تكيّف FMT بشكل أفضل، نستخدم وحدة مجال الاستقبال التكيفي (ARF) لضمان انتقال سلس في نطاقات الميزات، بالإضافة إلى استخدام مسار ميزات لنقل الميزات المُحولة والمشتقات عبر المراحل المختلفة من المقاييس. علاوةً على ذلك، نطبّق ارتباط الميزات الزوجي لقياس درجة التشابه بين الميزات، ونستخدم دالة خسارة تركيزية تقلل من الغموض لتعزيز عملية التدريب المراقب. إلى حد معرفتنا، فإن TransMVSNet يُعدّ أول محاولة تستخدم نموذج الـ Transformer في مهام MVS. ونتيجة لذلك، يحقق أداءً متميزًا على مجموعة بيانات DTU، ومحفظة التقييم Tanks and Temples، ومجموعة بيانات BlendedMVS. سيتم إتاحة الشفرة البرمجية الخاصة بنا عبر الرابط: https://github.com/MegviiRobot/TransMVSNet.