الاستماع للصوت الداخلي: مواءمة تدريب ControlNet عبر ردود الفعل الخاصة بالخصائص الوسيطة

رغم التقدم الملحوظ في نماذج التحويل النص إلى صورة، لا يزال تحقيق السيطرة المكانية الدقيقة على الإخراجات المولدة أمرًا متعذرًا. يعالج ControlNet هذا الأمر من خلال تقديم وحدة تكييف مساعدة، بينما يحسن ControlNet++ التوافق من خلال خسارة توافق دوري تُطبق فقط على خطوات إزالة الضوضاء النهائية. ومع ذلك، فإن هذا النهج يتجاهل مراحل التوليد الوسيطة، مما يحد من فعاليته. نقترح InnerControl، وهي استراتيجية تدريب تفرض التوافق المكاني عبر جميع خطوات التوسع. طريقتنا تقوم بتدريب استشعارات انتقائية خفيفة لإعادة بناء إشارات التحكم المدخلة (مثل الحواف، العمق) من الخصائص الوسيطة لـ UNet في كل خطوة لإزالة الضوضاء. هذه الاستشعارات تستخرج الإشارات بكفاءة حتى من المتغيرات الكامنة ذات الضوضاء العالية، مما يمكنها من توفير ضوابط حقيقية شبه حقيقية للتدريب. عن طريق تقليل الاختلاف بين الشروط المتوقعة والهدف عبر عملية التوسع بأكملها، فإن خسارة التناسق لدينا تحسن كلاً من دقة التحكم وجودة التوليد. عند الجمع بينها وبين التقنيات المعترف بها مثل ControlNet++، تحقق InnerControl أداءً رائدًا في مجموعة متنوعة من طرق التحكم (مثل الحواف، العمق).