BLIP-Diffusion: التمثيل المُسبق للموضوع للإنبات والتحرير القابلين للتحكم من النص إلى الصورة

النماذج المولدة للصور بناءً على النص والخاضعة للموضوع تنشئ صورًا جديدة للموضوع المدخل بناءً على تعليمات النص. ومع ذلك، تعاني النماذج الحالية من وقت طويل لضبط التحسين الدقيق وصعوبات في الحفاظ على دقة الموضوع. لتجاوز هذه القيود، نقدم نموذج BLIP-Diffusion الجديد، وهو نموذج مولِّد للصور الخاضعة للموضوع يدعم التحكم متعدد الوسائط ويستهلك مدخلات الصور الموضوعية وتعليمات النص. بخلاف النماذج الأخرى الخاضعة للموضوع، يُدخِل BLIP-Diffusion مرمِّزًا متعدد الوسائط جديدًا تم تدريبه مسبقًا لتوفير تمثيل للموضوع. أولاً، نقوم بتدريب المرمِّز المتعدد الوسائط وفقًا لـ BLIP-2 لإنتاج تمثيل بصري متوافق مع النص. ثم نصمم مهمة تعلم تمثيل الموضوع التي تمكن نموذج الانتشار (diffusion) من الاستفادة من هذا التمثيل البصري وإنشاء صور موضوعية جديدة. بالمقارنة مع الأساليب السابقة مثل DreamBooth، فإن نموذجنا يتيح إنشاء صور خاضعة للموضوع دون الحاجة إلى تدريب سابق (zero-shot)، وتحسين دقيق كفاءة للخضوع المخصص بمعدل يصل إلى 20 مرة أسرع. كما نثبت أن BLIP-Diffusion يمكن دمجه بشكل مرناً مع التقنيات الموجودة مثل ControlNet و prompt-to-prompt لتمكين تطبيقات جديدة لإنشاء وتحرير الصور الخاضعة للموضوع. سيتم إطلاق الكود والنماذج في https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion. صفحة المشروع في https://dxli94.github.io/BLIP-Diffusion-website/.