BiFuse++: تكامل ثنائي التصوير ذاتي التدريب وفعّال لتقدير العمق 360 درجة

بسبب الارتفاع المتسارع في استخدام الكاميرات الكروية، أصبحت تقنية تقدير العمق من منظور واحد (Monocular 360 Depth Estimation) تقنية مهمة لعدة تطبيقات (مثل الأنظمة المستقلة). ولهذا السبب، تم اقتراح أطر حديثة للتقدير المذكور، مثل دمج التصوير الثنائي في BiFuse. لتدريب مثل هذه الأطر، يتطلب الأمر عددًا كبيرًا من الصور الكروية المصحوبة بحقائق عمق محددة (Ground Truth) تم جمعها باستخدام أجهزة الليزر، ما يرفع بشكل كبير تكلفة جمع البيانات. علاوةً على ذلك، نظرًا لأن عملية جمع هذه البيانات تستغرق وقتًا طويلاً، يصبح التوسع في تطبيق هذه الأساليب على مشاهد مختلفة تحديًا كبيرًا. ولحل هذه المشكلة، يُعد تدريب الشبكة ذاتيًا لتقدير العمق من منظور واحد من خلال مقاطع فيديو كروية إحدى الطرق الفعالة لتقليل هذه التحديات. ومع ذلك، لا توجد حتى الآن أي أطر تدمج دمج التصوير الثنائي في سيناريو التدريب الذاتي، ما يحد بشكل كبير من الأداء في التدريب غير المراقب، نظرًا لأن دمج التصوير الثنائي يمكنه الاستفادة من المعلومات المتوفرة في أنواع مختلفة من التصوير. في هذا البحث، نقترح BiFuse++ لاستكشاف دمج تقنية دمج التصوير الثنائي مع سيناريو التدريب الذاتي. وبشكل محدد، نقترح وحدة دمج جديدة ووظيفة خسارة فوتوغرافية واعية بالتباين (Contrast-Aware Photometric Loss) لتحسين أداء BiFuse وزيادة استقرار التدريب الذاتي على مقاطع فيديو واقعية. وقد أجرينا تجارب مراقبة وغير مراقبة على مجموعات بيانات معيارية، وحققنا أداءً متفوقًا على الحد الأقصى المتوفر حاليًا.