HyperAIHyperAI

Command Palette

Search for a command to run...

StyleDiffusion: عكس تضمين الدعوة للتحرير القائم على النص

Senmao Li1, Joost van de Weijer2, Taihang Hu1, Fahad Shahbaz Khan3, Qibin Hou1, Yaxing Wang1(✉), Jian Yang1, Ming-Ming Cheng1

الملخص

يُركز جهد بحثي كبير على استغلال القدرات المدهشة للنماذج التدريبية المسبقة للانتشار (diffusion models) في تحرير الصور. إما أن يتم تعديل النموذج أو عكس الصورة في الفضاء الكامن (latent space) للنموذج التدريبي المسبق. ومع ذلك، تعاني هذه الأساليب من مشكلتين رئيسيتين: (1) نتائج غير مرضية للمناطق المختارة وتغييرات غير متوقعة في المناطق غير المختارة. (2) تتطلب تعديل النصوص بدقة حيث يجب أن يشمل النص جميع الأشياء البصرية في الصورة الإدخال.لحل هذه المشكلات، نقترح تحسينين اثنين: (1) تحسين مدخلات شبكة الخطية القيمية (value linear network) فقط في طبقات الانتباه المتقاطع (cross-attention layers) يكون كافياً وقوياً بما يكفي لإعادة بناء صورة حقيقية. (2) نقترح تنظيم الانتباه (attention regularization) لحفظ خرائط الانتباه المشابهة للأجسام بعد إعادة البناء والتحرير، مما يمكّننا من الحصول على تحرير دقيق لنمط الصورة دون إحداث تغييرات هيكلية كبيرة.بالإضافة إلى ذلك، نحسن تقنية التحرير المستخدمة في الفرع اللامشروط للارشاد الخالي من المصنف (unconditional branch of classifier-free guidance) كما هو مستخدم في P2P. تظهر نتائج التجارب الواسعة لتعديل النصوص على مجموعة متنوعة من الصور بشكل نوعي وكمي أن طريقتنا لديها قدرات تحرير أفضل مقارنة بالأعمال الموجودة والمتوافقة معها. يمكنكم الرجوع إلى الكود المرافق في StyleDiffusion: \url{https://github.com/sen-mao/StyleDiffusion}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp