HyperAIHyperAI
منذ 15 أيام

GLPanoDepth: تقدير عمق المنظور الشامل من العالمي إلى المحلي

Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo, Yanwen Guo
GLPanoDepth: تقدير عمق المنظور الشامل من العالمي إلى المحلي
الملخص

في هذه الورقة، نقترح طريقة قائمة على التعلم لتنبؤ القيم الكثيفة للعمق في مشهد ما من صورة أحادية الشكل متكاملة (أومنيديريكشنال). تمتلك الصور المتكاملة مجال رؤية كامل، مما يوفر وصفًا أكثر شمولاً للمنظر مقارنة بالصور المنظورية. ومع ذلك، تفشل الشبكات التلافيفية الكاملة التي تعتمد عليها معظم الحلول الحالية في استخلاص السياقات العالمية الغنية من الصور المتكاملة. ولحل هذه المشكلة، فضلاً عن تشوهات التمثيل المتساوي الطول (Equirectangular Projection) في الصور المتكاملة، نقترح معمارية جديدة تُسمى "مُحَوِّلَات البصر المكعبية" (Cubemap Vision Transformers - CViT)، وهي معمارية قائمة على التحويلات (Transformers) قادرة على نمذجة الاعتماديات على المدى الطويل واستخلاص ميزات عالمية خالية من التشوهات من الصور المتكاملة. ونُظهر أن مُحَوِّلات البصر المكعبية تمتلك مجال استقبال عالمي في كل مرحلة، ويمكنها تقديم تنبؤات متماسكة عالميًا للإشارات الكروية. وللحفاظ على الميزات المحلية المهمة، نصمم أيضًا فرعًا مبنيًا على التلافيف في مسارنا (يُسمى GLPanoDepth)، ونُدمج الميزات العالمية المستمدة من مُحَوِّلات البصر المكعبية على مقاييس متعددة. يُتيح لنا هذا النهج العالمي-المحلي استغلال الميزات العالمية والمحليّة المفيدة في الصورة المتكاملة بالكامل، مما يُحقق أداءً متقدمًا للغاية في تقدير عمق الصور المتكاملة.

GLPanoDepth: تقدير عمق المنظور الشامل من العالمي إلى المحلي | أحدث الأوراق البحثية | HyperAI