Command Palette
Search for a command to run...
USO: نموذج موحد لتوليد الصور يعتمد على الأسلوب والموضوع
Date
Size
699.93 MB
License
Apache 2.0
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

يُعدّ USO، الذي أطلقه فريق UXO التابع لشركة ByteDance في أغسطس 2025، إطار عمل موحدًا لفصل المحتوى عن الأسلوب وإعادة دمجهما. فهو يُمكّن من دمج أي سمة وأسلوب في أي مشهد لإنتاج صور تتميز بتناسق عالٍ في الموضوع، ودقة عالية في الأسلوب، ومظهر طبيعي غير مصطنع. يُنشئ USO مجموعة بيانات ثلاثية واسعة النطاق، ويستخدم آلية تعلم الفصل لمواءمة خصائص الأسلوب وفصل المحتوى عن الأسلوب في آنٍ واحد، كما يُقدّم تقنية تعلم مكافأة الأسلوب (SRL) لتحسين أداء النموذج. وقد أصدر USO اختبار USO-Bench المعياري لتقييم تشابه الأسلوب ودقة الموضوع بشكل شامل. تُظهر التجارب أن USO يحقق أداءً متميزًا بين نماذج المصادر المفتوحة في كلٍ من تناسق الموضوع وتشابه الأسلوب. تتوفر أوراق بحثية ذات صلة. USO: أسلوب موحد وتوليد موجه نحو الموضوع من خلال التعلم المنفصل والتعلم بالمكافأة .
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.
2. عرض التأثير
الجيل الموجه بالموضوع/الهوية
إذا أردتَ وضعَ الموضوع في مشهد جديد، فاستخدم لغةً طبيعية، مثل "الكلب/الرجل/المرأة يفعل...". إذا أردتَ فقط نقل الأسلوب مع الحفاظ على التصميم، فاستخدم إشاراتٍ توجيهية، مثل "نقل الأسلوب إلى أسلوب...". لإنشاء صور بورتريه، يتفوق برنامج USO في إنتاج صورٍ بتفاصيل دقيقة للجلد. دليل عملي: لإشارات نصف الجسم، استخدم لقطاتٍ مقربة لنصف الجسم؛ استخدم صورًا لكامل الجسم عندما تتغير الوضعية أو الإطار بشكلٍ كبير.

الجيل الموجه نحو الأسلوب
ما عليك سوى تحميل صورة أو صورتين بأسلوبك الخاص، واستخدام لغة طبيعية لإنشاء الصورة التي تريدها. سيتبع USO تعليماتك ويُنشئ صورًا تتوافق مع أسلوبك.

جيل مدفوع بالموضوعات والأنماط
يمكن لـ USO تنسيق مرجع محتوى واحد باستخدام مرجع أو مرجعين للأنماط. بالنسبة للتصاميم التي تحافظ على التصميم، ما عليك سوى ضبط التلميح على فارغ.
عمليات البناء التي تحافظ على التخطيط

إنشاء إزاحة التخطيط

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.


المعلمات المحددة:
- عرض التوليد: إنشاء عرض الصورة.
- ارتفاع التوليد: ارتفاع الصورة المولدة.
- الاحتفاظ بحجم الإدخال: اضبط هذا على True إذا كنت تحتاج فقط إلى تحرير النمط أو تريد الحفاظ على التخطيط.
- خيارات متقدمة:
- عدد الخطوات: يتحكم في عدد التكرارات في عملية إنشاء نموذج الانتشار. نظريًا، يؤدي عدد أكبر من الخطوات إلى جودة صورة أعلى، ولكنه يزيد أيضًا من وقت التوليد.
- التوجيه: يتحكم في الدرجة التي تتبع بها الصورة المولدة الكلمة التوجيهية وصورة المرجع.
- حجم مرجع المحتوى: عند معالجة صورة مرجع المحتوى، قد يتم قياسها إلى طول الجانب الأطول المحدد (مع الحفاظ على نسبة العرض إلى الارتفاع) قبل استخراج الميزة.
- البذرة (-1 للأرقام العشوائية): تتحكم في الحالة الأولية لمولد الأرقام العشوائية.
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wu2025uso,
title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
year={2025},
eprint={2508.18966},
archivePrefix={arXiv},
primaryClass={cs.CV},
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.