HyperAI

OminiControl توليد الصور والتحكم فيها متعدد الوظائف

أوميني كونترول
نجوم جيثب
ترخيص GitHub
أرشيف

1. مقدمة البرنامج التعليمي

OminiControl هو إطار عمل للتحكم العام بسيط ولكنه قوي تم إصداره بواسطة XML Lab في الجامعة الوطنية في سنغافورة في ديسمبر 2024، وهو مناسب لنماذج Diffusion Transformer مثل FLUX. بإمكانك إنشاء نماذج OminiControl الخاصة بك عن طريق تخصيص أي مهمة تحكم (ثلاثية الأبعاد، ومتعددة العرض، والتوجيه بالإيماءات، وما إلى ذلك) باستخدام نماذج FLUX. نتائج الورقة ذات الصلة هيOminiControl: التحكم الأدنى والعالمي لمحول الانتشار".

التحكم العالمي 🌐 :إطار عمل تحكم موحد يدعم كل من التحكم الذي يحركه العميل والتحكم المكاني (على سبيل المثال، التوجيه بالحافة والتوليد داخل الرسم).

تصميم بسيط 🚀 :حقن إشارات التحكم مع الاحتفاظ بهيكل النموذج الأصلي. تم تقديم معلمة إضافية بقيمة 0.1% فقط إلى النموذج الأساسي.

يعتمد هذا البرنامج التعليمي على إطار التحكم العام OminiControl وينفذ إنشاء موضوعي والتحكم المكاني في الصور. يستخدم مصدر قوة الحوسبة بطاقة واحدة A6000.

أمثلة التأثير

1. الجيل الموجه بالموضوع

العرض التوضيحي(يسار: صورة مشروطة؛ يمين: صورة مُولَّدة)

كلمة نصية موجهة

  • نصيحة رقم 1:صورة مقربة تظهر العنصر. موضوعة على طاولة خشبية، مع غرفة مظلمة في الخلفية، وجهاز تلفزيون قيد التشغيل وبرنامج طبخ يُعرض على الشاشة، وكلمات "Omini Control!"
  • تلميح 2:لقطات بأسلوب سينمائي. على سطح القمر، تم تحريك الجسم على سطح القمر وهو يحمل علمًا يحمل كلمة "أوميني" على جسمه. في الخلفية هناك الكرة الأرضية الضخمة التي تشغل المقدمة.
  • التلميح 3:في الغرفة المصممة على طراز باوهاوس، يتم وضع الأشياء على طاولة زجاجية لامعة، بجوار مزهرية مليئة بالزهور. وفي شمس الظهيرة، ألقت ظلال الستائر على الحائط.
  • التلميح رقم 4:تظهر امرأة جالسة تحت مظلة "أوميني" على الشاطئ، وترتدي هذا القميص بابتسامة كبيرة على وجهها ولوح ركوب الأمواج خلفها. الخلفية هي سماء برتقالية أرجوانية عند غروب الشمس.

2. التحكم في المحاذاة المكانية

تلوين الصورة(يسار: الصورة الأصلية؛ وسط: صورة القناع؛ يمين: نتيجة التعبئة)

  • نصائح:ترتدي الموناليزا سماعة الواقع الافتراضي البيضاء مع كلمة "Omini" مطبوعة عليها.
  • نصائح:يحتوي غلاف الكتاب الأصفر على كلمة "OMINI" مطبوعة بخط كبير، ويظهر النص "for FLUX" في الأسفل.

2. خطوات التشغيل

إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك تجربة إنشاء السمات (الموضوع) والتحكم المكاني (المكاني)

ملحوظة: يستغرق التبديل بين النموذجين حوالي 30 إلى 70 ثانية، يرجى التحلي بالصبر.

توليد مدفوع بالموضوع:  يمكن للمستخدم إكمال عملية التوليد الموجهة بالموضوع من خلال توفير صورة لكائن ووصف نصي للمشهد المستهدف حيث يقع الكائن.

التحكم في المساحة:  وهي تشمل عمليات مثل استعادة الصورة و Canny. يقوم المستخدم بتوفير صورة لكائن ووصف نصي للتغييرات التي تطرأ على الكائن لاستكمال التحكم المكاني للصورة. 

تأثير التوليد الموجه بالموضوع (الموضوع) 

التحكم المكاني - تأثير استعادة الصورة (مكاني) 

معلومات الاستشهاد

شكرًا لمستخدم GitHub سوبر يانغ  لإنتاج هذا البرنامج التعليمي، معلومات مرجعية للمشروع هي كما يلي:

@article{tan2024ominicontrol,
  title={Ominicontrol: Minimal and universal control for diffusion transformer},
  author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
  journal={arXiv preprint arXiv:2411.15098},
  volume={3},
  year={2024}
}

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓