HyperAIHyperAI
منذ 2 أشهر

إضافة التحكم الشرطي إلى نماذج التوسع النصية-الصورية

Zhang, Lvmin ; Rao, Anyi ; Agrawala, Maneesh
إضافة التحكم الشرطي إلى نماذج التوسع النصية-الصورية
الملخص

نقدم ControlNet، وهي بنية عصبية تهدف إلى إضافة ضوابط شرطية فضائية إلى نماذج التوسع النصية-الصورية المدربة مسبقًا والكبيرة الحجم. يعمل ControlNet على تثبيت نماذج التوسع الجاهزة للإنتاج واستخدام طبقاتها الترميزية العميقة والقوية التي تم تدريبها مسبقًا بمليارات الصور كعمود فقري قوي لتعلم مجموعة متنوعة من الضوابط الشرطية. يتم ربط البنية العصبية بـ "التحويلات الصفرية" (طبقات التحويل المبادرة بالصفر) التي تزيد تدريجيًا من المعلمات من الصفر وتضمن عدم وجود ضوضاء ضارة قد تؤثر على التعديل الدقيق. نختبر مجموعة متنوعة من الضوابط الشرطية، مثل الحواف، العمق، التقسيم، وضع الإنسان وغيرها، باستخدام Stable Diffusion وشروط واحدة أو متعددة، مع أو بدون دعوات. نوضح أن تدريب ControlNets ثابت مع قواعد بيانات صغيرة (<50k) وكبيرة (>1m). تظهر النتائج الواسعة أن ControlNet قد تسهل التطبيقات الأider على نطاق أوسع لتحكم في نماذج توسع الصور.

إضافة التحكم الشرطي إلى نماذج التوسع النصية-الصورية | أحدث الأوراق البحثية | HyperAI