إعادة توظيف مُولّدات الصور القائمة على الانتشار لتقدير العمق من منظور واحد

إن تقدير العمق من صورة واحدة هو مهمة أساسية في رؤية الحاسوب. إن استرجاع عمق ثلاثي الأبعاد من صورة واحدة أمر غير محدد هندسيًا ويستدعي فهمًا للسياق، لذا لا يُفاجئ أن انتشار التعلم العميق قد أدى إلى تقدم كبير في هذا المجال. وقد تزامن التقدم المذهل في نماذج تقدير العمق من صورة واحدة مع نمو قدرة النماذج، من الشبكات العصبية التلافيفية (CNNs) البسيطة نسبيًا إلى الهياكل الكبيرة القائمة على المُحَوِّلات (Transformers). ومع ذلك، تُعاني نماذج تقدير العمق من صورة واحدة غالبًا من الصعوبة عند مواجهة صور ذات محتوى أو تخطيط غير مألوف، نظرًا لأن معرفتها بالعالم البصري محدودة بالبيانات التي شوهدت أثناء التدريب، وتصاب بالتحدي عند محاولة التعميم بدون تدريب (zero-shot generalization) في مجالات جديدة. وهذا يدفعنا إلى استكشاف ما إذا كان بالإمكان الاستفادة من المعرفة الأولية الواسعة التي تُمتص في النماذج التوليدية القائمة على التشتت (diffusion models) الحديثة لتحسين أداء تقدير العمق وجعله أكثر قابلية للتعميم. نقدّم "ماريغول" (Marigold)، وهي طريقة لتقدير العمق من صورة واحدة مستقلة عن التحويلات التماثلية (affine-invariant)، مستمدة من نموذج ستايلب ديفوسيون (Stable Diffusion) مع الحفاظ على معرفته الغنية بالبُنى الأولية. يمكن تحسين هذا المُقدّر في غضون بضع أيام على وحدة معالجة واحدة (GPU) باستخدام بيانات تدريب اصطناعية فقط. ويُظهر الأداء المتفوّق على مجموعة واسعة من مجموعات البيانات، بما في ذلك زيادة في الأداء تتجاوز 20% في حالات محددة. صفحة المشروع: https://marigoldmonodepth.github.io.