HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP-Diffusion: التمثيل المُسبق للموضوع للإنبات والتحرير القابلين للتحكم من النص إلى الصورة

Dongxu Li Junnan Li Steven C.H. Hoi

الملخص

النماذج المولدة للصور بناءً على النص والخاضعة للموضوع تنشئ صورًا جديدة للموضوع المدخل بناءً على تعليمات النص. ومع ذلك، تعاني النماذج الحالية من وقت طويل لضبط التحسين الدقيق وصعوبات في الحفاظ على دقة الموضوع. لتجاوز هذه القيود، نقدم نموذج BLIP-Diffusion الجديد، وهو نموذج مولِّد للصور الخاضعة للموضوع يدعم التحكم متعدد الوسائط ويستهلك مدخلات الصور الموضوعية وتعليمات النص. بخلاف النماذج الأخرى الخاضعة للموضوع، يُدخِل BLIP-Diffusion مرمِّزًا متعدد الوسائط جديدًا تم تدريبه مسبقًا لتوفير تمثيل للموضوع. أولاً، نقوم بتدريب المرمِّز المتعدد الوسائط وفقًا لـ BLIP-2 لإنتاج تمثيل بصري متوافق مع النص. ثم نصمم مهمة تعلم تمثيل الموضوع التي تمكن نموذج الانتشار (diffusion) من الاستفادة من هذا التمثيل البصري وإنشاء صور موضوعية جديدة. بالمقارنة مع الأساليب السابقة مثل DreamBooth، فإن نموذجنا يتيح إنشاء صور خاضعة للموضوع دون الحاجة إلى تدريب سابق (zero-shot)، وتحسين دقيق كفاءة للخضوع المخصص بمعدل يصل إلى 20 مرة أسرع. كما نثبت أن BLIP-Diffusion يمكن دمجه بشكل مرناً مع التقنيات الموجودة مثل ControlNet و prompt-to-prompt لتمكين تطبيقات جديدة لإنشاء وتحرير الصور الخاضعة للموضوع. سيتم إطلاق الكود والنماذج في https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion. صفحة المشروع في https://dxli94.github.io/BLIP-Diffusion-website/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp