PrimeDepth: تقدير عمق منفرد فعّال باستخدام صورة ما قبل التمايز المستقرة

تتناول هذه الدراسة مهمة التقدير الصوتي للعمق من منظور منفرد دون تدريب مسبق (zero-shot monocular depth estimation). وقد شهد هذا المجال تقدماً حديثاً من خلال استخدام نماذج الأساس النصية-الصورية (Text-to-Image foundation models)، مثل Stable Diffusion. تُوفّر نماذج الأساس تمثيلاً صورياً غنياً وعاماً، وبالتالي فإن كمية البيانات التدريبية المطلوبة لتكييفها كنموذج لتقدير العمق يكون ضئيلاً، مما يُنتج خرائط عمق مفصلة للغاية وقدرة تعميم جيدة. ومع ذلك، فإن تنفيذ هذه الفكرة حتى الآن أدى إلى طرق تُعد غير فعّالة جداً أثناء الاختبار، وذلك بسبب العملية التكرارية لتقليل الضوضاء الكامنة وراءها. في هذا العمل، نقترح نهجاً مختلفاً لتنفيذ هذه الفكرة، ونقدّم طريقة تُسمى PrimeDepth، والتي تتميز بفعالية عالية أثناء الاختبار، مع الحفاظ على أو حتى تحسين الجوانب الإيجابية للطرق القائمة على التفتيت (diffusion-based approaches). تكمن الفكرة الأساسية في استخراج تمثيل صوري غني لكنه ثابت (frozen) من Stable Diffusion من خلال تنفيذ خطوة واحدة لتقليل الضوضاء. نُطلق على هذا التمثيل اسم "الصورة المسبقة" (preimage)، والتي تُقدّم بعد ذلك إلى شبكة تحسين (refiner network) ذات تحيّز تراكبي مُصمم مسبقاً، قبل الدخول إلى المهمة المستهدفة. ونُثبت تجريبياً أن PrimeDepth أسرع بمرتين من المعيار (two orders of magnitude) مقارنة بالطريقة القائمة على التفتيت الرائدة، Marigold، مع تفوّقها في المرونة أمام السيناريوهات الصعبة، وتفوّقها الكمي قليلاً. وبذلك، نقلل الفجوة بيننا وبين الطريقة المُعتمدة على البيانات الرائدة حالياً، Depth Anything، التي لا تزال تتفوّق كمياً، لكنها تُنتج خرائط عمق أقل تفصيلاً، وتحتاج إلى 20 مرة أكثر من البيانات المُعلّمة. وبسبب الطبيعة المكملة لنهجنا، حتى متوسط بسيط بين تنبؤات PrimeDepth وDepth Anything يُفوق كلا الطرائق، ويُشكّل حالة جديدة من الأفضلية في تقدير العمق من منظور منفرد دون تدريب مسبق. في المستقبل، قد تستفيد الطرق المُعتمدة على البيانات أيضاً من دمج "الصورة المسبقة" التي نقدّمها.