أومنيفيوشن: تقدير العمق أحادي البُعد 360 درجة من خلال دمج يراعي الهندسة

إحدى التحديات الشهيرة في تطبيق منهجيات التعلم العميق على الصور الشاملة (omnidirectional images) هي التشوه الكروي. في مهام الانحدار الكثيفة مثل تقدير العمق، التي تتطلب تفاصيل هيكلية دقيقة، يؤدي استخدام طبقة CNN تقليدية على الصورة 360 المتشوهة إلى فقدان غير مرغوب فيه للمعلومات. في هذه الورقة، نقترح نموذجًا لتقدير العمق من منظور واحد للصورة 360 يُسمى OmniFusion، بهدف معالجة مشكلة التشوه الكروي. يحول نموذجنا الصورة 360 إلى قطع منظورية أقل تشوهًا (أي صور مماسية)، ويُنتج توقعات على مستوى كل قطعة باستخدام شبكة عصبية متعددة الطبقات (CNN)، ثم يدمج النتائج المُستخلصة من كل قطعة للحصول على الناتج النهائي. ولمعالجة الفجوة بين التوقعات الناتجة عن كل قطعة، وهي مشكلة رئيسية تؤثر على جودة الدمج، نقترح إطارًا جديدًا يحتوي على المكونات الأساسية التالية: أولاً، نقترح آلية دمج ميزات واعية بالهندسة، تدمج بين الميزات الهندسية الثلاثية الأبعاد والميزات الثنائية الأبعاد للصورة، بهدف معالجة الفجوة بين التوقعات الناتجة عن القطع. ثانيًا، نستخدم بنية مُستندة إلى المحولات (transformer) تعتمد على الانتباه الذاتي (self-attention) لإجراء تجميع عالمي للمعلومات المستخلصة من كل قطعة، مما يعزز التماسك بشكل أكبر. وأخيرًا، نُقدّم آلية تحسين تكرارية للعمق، لتحسين تقدير العمق بناءً على الميزات الهندسية الأكثر دقة. تُظهر التجارب أن منهجنا يُقلل بشكل كبير من مشكلة التشوه، ويحقق أداءً متميزًا على عدة مجموعات بيانات معيارية لتقدير العمق من منظور واحد للصورة 360.