HyperAI

عرض توضيحي لتوليد صور عالية الدقة باستخدام InfiniteYou

أمثلة التأثير

1. مقدمة البرنامج التعليمي

InfiniteYou، المختصر باسم InfU، هو إطار عمل لتوليد الصور مع الحفاظ على الهوية ويعتمد على محولات الانتشار (مثل FLUX) التي أطلقها فريق الإنشاء الذكي في ByteDance في عام 2025. ومن خلال التكنولوجيا المتقدمة، فإنه قادر على الحفاظ على اتساق هوية الشخص أثناء توليد الصور، وحل أوجه القصور في الطرق الحالية في تشابه الهوية ومحاذاة النص والصورة وجودة التوليد.

باعتبارها واحدة من أقدم الأطر القوية في هذا المجال التي تستخدم المحولات المنتشرة (DiTs)، فإن InfU تعالج بشكل منهجي ثلاث قضايا أساسية في الأساليب الحالية: عدم كفاية تشابه الهوية، وتحيز محاذاة الصورة والنص، وضعف جودة التوليد والأداء الجمالي. إن ابتكارها الأساسي، InfuseNet، يحقن ميزات الهوية في النموذج القائم على DiT من خلال الاتصالات المتبقية، مما يحسن بشكل كبير من دقة الهوية مع الحفاظ على قدرات التوليد. تم اعتماد استراتيجية تدريب متعددة المراحل تتضمن التدريب المسبق والضبط الدقيق المشرف (SFT) مع بيانات اصطناعية متعددة العينات لشخص واحد (SPMS) لتحسين محاذاة النص والصورة بشكل أكبر وتحسين جودة التوليد وتخفيف تأثير تكرار الوجه بشكل فعال. وتظهر التجارب المكثفة أن InfU يحقق أداءً متطورًا، ويتفوق على الطرق الأساسية الحالية في جميع الجوانب. ويضمن تصميمه سهل التوصيل والتشغيل التوافق مع مختلف الأساليب الحالية، مما يوفر مساهمات تقنية مهمة للمجتمع الأكاديمي.

يستخدم هذا البرنامج التعليمي InfiniteYou-FLUX v1.0 كعرض توضيحي، ومورد قوة الحوسبة هو A6000.

يوفر البرنامج التعليمي نسختين نموذجيتين:

نسخة InfiniteYouنسخة النموذجالنموذج الأساسي المستخدم للتدريبسمات
InfiniteYou-FLUX الإصدار 1.0aes_stage2FLUX.1-devيتمتع نموذج المرحلة الثانية بعد الضبط الدقيق الخاضع للإشراف (SFT) بمحاذاة أفضل للصورة والنص وأداء جمالي أفضل
InfiniteYou-FLUX الإصدار 1.0sim_stage1FLUX.1-devيوفر نموذج المرحلة الأولى قبل الضبط الدقيق الخاضع للإشراف تشابهًا أعلى لسمات الهوية

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى الموقع، يمكنك البدء في استخدامه

❗️نصائح هامة للاستخدام:

  • نسخة النموذج: الاستخدام الافتراضي aes_stage2 لتحقيق أفضل محاذاة للصورة والنص والتأثيرات الجمالية. للحصول على تشابه معرف أعلى، حاول sim_stage1 .
  • معلمات فرعية مفيدة:عادةً لا تكون هناك حاجة إلى مزيد من التعديلات. إذا لزم الأمر، حاول استخدام حجم أكبر قليلاً --infusenet_guidance_start(على سبيل المثال 0.1)(يمين sim_stage1 (فعالة بشكل خاص). إذا كان التأثير لا يزال غير مرضي، فحاول استخدام كمية أصغر قليلاً --infusenet_conditioning_scale(على سبيل المثال 0.9).
  • LoRA اختياري:realism(واقعي) و anti-blur(مضاد للضبابية). قم بتحديد المربع المقابل لتمكينه. هذه ميزات اختيارية ولم يتم استخدامها في الورقة.
  • نصائح حول الجنس:إذا لم يكن الجنس الناتج كما هو متوقع، فيرجى إضافة كلمات محددة في النص المطلوب، مثل "رجل"، "امرأة"، وما إلى ذلك. يشجع هذا المشروع على استخدام لغة شاملة ومحترمة.

كيفية الاستخدام

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓