USO: نموذج موحد لتوليد الصور يعتمد على الأسلوب والموضوع
1. مقدمة البرنامج التعليمي

USO هو إطار عمل موحد لفصل المحتوى والأسلوب وإعادة تنظيمهما، أطلقه فريق UXO في بايت دانس في أغسطس 2025. يتيح هذا الإطار دمج أي موضوع مع أي نمط في أي مشهد بحرية لتوليد صور ذات اتساق عالٍ في الموضوع، ودقة عالية في الأسلوب، وشعور طبيعي غير بلاستيكي. يُنشئ USO مجموعة بيانات ثلاثية واسعة النطاق، ويتبنى نظام تعلم منفصل لمواءمة سمات الأسلوب وفصل المحتوى والأسلوب في آنٍ واحد، ويُقدم تعلم مكافأة الأسلوب (SRL) لتحسين أداء النموذج بشكل أكبر. أصدرت USO معيار USO-Bench للتقييم الشامل لتشابه الأسلوب ودقة الموضوع. تُظهر التجارب أن USO قد وصل إلى أعلى مستوى بين نماذج المصدر المفتوح من حيث اتساق الموضوع وتشابه الأسلوب. نتائج البحث ذات الصلة هي:USO: أسلوب موحد وتوليد موجه نحو الموضوع من خلال التعلم المنفصل والتعلم بالمكافأة".
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.
2. عرض التأثير
الجيل الموجه بالموضوع/الهوية
إذا أردتَ وضعَ الموضوع في مشهد جديد، فاستخدم لغةً طبيعية، مثل "الكلب/الرجل/المرأة يفعل...". إذا أردتَ فقط نقل الأسلوب مع الحفاظ على التصميم، فاستخدم إشاراتٍ توجيهية، مثل "نقل الأسلوب إلى أسلوب...". لإنشاء صور بورتريه، يتفوق برنامج USO في إنتاج صورٍ بتفاصيل دقيقة للجلد. دليل عملي: لإشارات نصف الجسم، استخدم لقطاتٍ مقربة لنصف الجسم؛ استخدم صورًا لكامل الجسم عندما تتغير الوضعية أو الإطار بشكلٍ كبير.

الجيل الموجه نحو الأسلوب
ما عليك سوى تحميل صورة أو صورتين بأسلوبك الخاص، واستخدام لغة طبيعية لإنشاء الصورة التي تريدها. سيتبع USO تعليماتك ويُنشئ صورًا تتوافق مع أسلوبك.

جيل مدفوع بالموضوعات والأنماط
يمكن لـ USO تنسيق مرجع محتوى واحد باستخدام مرجع أو مرجعين للأنماط. بالنسبة للتصاميم التي تحافظ على التصميم، ما عليك سوى ضبط التلميح على فارغ.
عمليات البناء التي تحافظ على التخطيط

إنشاء إزاحة التخطيط

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.


المعلمات المحددة:
- عرض التوليد: إنشاء عرض الصورة.
- ارتفاع التوليد: ارتفاع الصورة المولدة.
- الاحتفاظ بحجم الإدخال: اضبط هذا على True إذا كنت تحتاج فقط إلى تحرير النمط أو تريد الحفاظ على التخطيط.
- خيارات متقدمة:
- عدد الخطوات: يتحكم في عدد التكرارات في عملية إنشاء نموذج الانتشار. نظريًا، يؤدي عدد أكبر من الخطوات إلى جودة صورة أعلى، ولكنه يزيد أيضًا من وقت التوليد.
- التوجيه: يتحكم في الدرجة التي تتبع بها الصورة المولدة الكلمة التوجيهية وصورة المرجع.
- حجم مرجع المحتوى: عند معالجة صورة مرجع المحتوى، قد يتم قياسها إلى طول الجانب الأطول المحدد (مع الحفاظ على نسبة العرض إلى الارتفاع) قبل استخراج الميزة.
- البذرة (-1 للأرقام العشوائية): تتحكم في الحالة الأولية لمولد الأرقام العشوائية.
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wu2025uso,
title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
year={2025},
eprint={2508.18966},
archivePrefix={arXiv},
primaryClass={cs.CV},
}