تغليظ نماذج التوسع المشروطة بالصورة أسهل مما تعتقد

أظهرت الدراسات الحديثة أن النماذج الكبيرة للانتشار يمكن إعادة استخدامها كمقدرات دقيقة للعمق الأحادي البؤرة من خلال تحويل تقدير العمق إلى مهمة توليد صور مشروطة بالصورة. رغم تحقيق النموذج المقترح لأفضل النتائج المعاصرة، إلا أن متطلبات الحوسبة العالية بسبب الاستدلال متعدد الخطوات قيّدت استخدامه في العديد من السيناريوهات. في هذا البحث، نوضح أن عدم الكفاءة المتصور كان ناجمًا عن عيب في خط الأنابيب الاستدلالي الذي لم يُلاحظ حتى الآن. يؤدي النموذج الثابت أداءً مماثلًا لأفضل التكوينات التي تم الإبلاغ عنها سابقًا وهو أسرع بمرتين تزيد على 200 مرة. لتحسين الأداء في المهام اللاحقة، نقوم بتغليظ التدريب من البداية إلى النهاية فوق النموذج ذو الخطوة الواحدة باستخدام خسائر محددة للمهمة ونحصل على نموذج حتمي يتفوق على جميع نماذج تقدير العمق والطبيعيات المستندة إلى الانتشار في مقاييس الاختبار الصفرية الشائعة. وقد فوجئنا بأن برتوكول التغليظ هذا يعمل أيضًا مباشرة على Stable Diffusion (الانتشار المستقر) ويحقق أداءً مماثلًا لأحدث نماذج تقدير العمق والطبيعيات المستندة إلى الانتشار، مما يجعل بعض الاستنتاجات التي تم رسمها من الأعمال السابقة محل تساؤل.