BiFuse: التقدير الثلاثي الأبعاد لصورة واحدة بزاوية 360 درجة من خلال دمج التصوير الثنائي

الاستدلال على العمق من صورة ثلاثية الأبعاد مفردة (Monocular 360 Image) يُعد مشكلة ناشئة تكتسب شعبية متزايدة بفضل توفر كاميرات 360 بمستوى المستهلك وامتلاك القدرة على الاستشعار الكامل للبيئة المحيطة. وعلى الرغم من التطور السريع للمعايير الخاصة بالتصوير ثلاثي الأبعاد، نقترح توقع خريطة العمق لصورة 360 مفردة من خلال محاكاة الرؤية المحيطية والمركزية للعين البشرية. ولتحقيق ذلك، نعتمد شبكة عصبية ذات فرعين تستخدم نوعين شائعيين من التمثيلات: التمثيل المستطيل المتساوي (Equirectangular) والتمثيل المكعب (Cubemap). وتحديدًا، يحتوي التمثيل المستطيل المتساوي على مجال رؤية كامل، لكنه يُسبب تشوهات، بينما يتجنب التمثيل المكعب التشوهات ولكنه يُحدث انقطاعًا عند حدود المكعب. ولذلك، نقترح خطة دمج ثنائية التمثيل (Bi-projection Fusion) مدعومة بأقنعة قابلة للتعلم لموازنة الخرائط المميزة الناتجة من كلا التمثيلين. علاوةً على ذلك، نقترح إجراءة تعبئة كروية (Spherical Padding) للتمثيل المكعب، والتي تُخفف من انقطاعات الحدود بين الوجوه. ونُطبّق طريقةنا على أربع مجموعات بيانات للمناظر الطبيعية (Panorama)، ونُظهر نتائج مُرضية مقارنةً بالأساليب الرائدة الحالية في المجال.