Command Palette
Search for a command to run...
OminiControl توليد الصور والتحكم فيها متعدد الوظائف
Date
Size
562.43 MB
GitHub
Paper URL

1. مقدمة البرنامج التعليمي
يُعدّ OminiControl، الذي أطلقه مختبر xML في جامعة سنغافورة الوطنية في ديسمبر 2024، إطار عمل تحكم بسيطًا وفعّالًا للأغراض العامة، ومناسبًا لنماذج Diffusion Transformer مثل FLUX. يُمكن للمستخدمين إنشاء نماذج OminiControl الخاصة بهم من خلال تخصيص أي مهمة تحكم (ثلاثية الأبعاد، عرض متعدد، توجيه بالإيماءات، إلخ) باستخدام نماذج FLUX. تتوفر أوراق بحثية ذات صلة. OminiControl: التحكم الأدنى والعالمي لمحول الانتشار .
التحكم العالمي 🌐 :إطار عمل تحكم موحد يدعم كل من التحكم الذي يحركه العميل والتحكم المكاني (على سبيل المثال، التوجيه بالحافة والتوليد داخل الرسم).
تصميم بسيط 🚀 :حقن إشارات التحكم مع الاحتفاظ بهيكل النموذج الأصلي. تم تقديم معلمة إضافية بقيمة 0.1% فقط إلى النموذج الأساسي.
يعتمد هذا البرنامج التعليمي على إطار التحكم العام OminiControl وينفذ إنشاء موضوعي والتحكم المكاني في الصور. يستخدم مصدر قوة الحوسبة بطاقة واحدة A6000.
أمثلة التأثير
1. الجيل الموجه بالموضوع
العرض التوضيحي(يسار: صورة مشروطة؛ يمين: صورة مُولَّدة)




كلمة نصية موجهة
- نصيحة رقم 1:صورة مقربة تظهر العنصر. موضوعة على طاولة خشبية، مع غرفة مظلمة في الخلفية، وجهاز تلفزيون قيد التشغيل وبرنامج طبخ يُعرض على الشاشة، وكلمات "Omini Control!"
- تلميح 2:لقطات بأسلوب سينمائي. على سطح القمر، تم تحريك الجسم على سطح القمر وهو يحمل علمًا يحمل كلمة "أوميني" على جسمه. في الخلفية هناك الكرة الأرضية الضخمة التي تشغل المقدمة.
- التلميح 3:في الغرفة المصممة على طراز باوهاوس، يتم وضع الأشياء على طاولة زجاجية لامعة، بجوار مزهرية مليئة بالزهور. وفي شمس الظهيرة، ألقت ظلال الستائر على الحائط.
- التلميح رقم 4:تظهر امرأة جالسة تحت مظلة "أوميني" على الشاطئ، وترتدي هذا القميص بابتسامة كبيرة على وجهها ولوح ركوب الأمواج خلفها. الخلفية هي سماء برتقالية أرجوانية عند غروب الشمس.
2. التحكم في المحاذاة المكانية
تلوين الصورة(يسار: الصورة الأصلية؛ وسط: صورة القناع؛ يمين: نتيجة التعبئة)
- نصائح:ترتدي الموناليزا سماعة الواقع الافتراضي البيضاء مع كلمة "Omini" مطبوعة عليها.

- نصائح:يحتوي غلاف الكتاب الأصفر على كلمة "OMINI" مطبوعة بخط كبير، ويظهر النص "for FLUX" في الأسفل.

2. خطوات التشغيل
إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك تجربة إنشاء السمات (الموضوع) والتحكم المكاني (المكاني)
ملحوظة: يستغرق التبديل بين النموذجين حوالي 30 إلى 70 ثانية، يرجى التحلي بالصبر.
توليد مدفوع بالموضوع: يمكن للمستخدم إكمال عملية التوليد الموجهة بالموضوع من خلال توفير صورة لكائن ووصف نصي للمشهد المستهدف حيث يقع الكائن.
التحكم في المساحة: وهي تشمل عمليات مثل استعادة الصورة و Canny. يقوم المستخدم بتوفير صورة لكائن ووصف نصي للتغييرات التي تطرأ على الكائن لاستكمال التحكم المكاني للصورة.

تأثير التوليد الموجه بالموضوع (الموضوع)

التحكم المكاني - تأثير استعادة الصورة (مكاني) 
معلومات الاستشهاد
شكرًا لمستخدم GitHub سوبر يانغ لإنتاج هذا البرنامج التعليمي، معلومات مرجعية للمشروع هي كما يلي:
@article{tan2024ominicontrol,
title={Ominicontrol: Minimal and universal control for diffusion transformer},
author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
journal={arXiv preprint arXiv:2411.15098},
volume={3},
year={2024}
}
التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
