تصل قدرة التوليد التي يقودها وكلاء متعددون إلى SOTA، ويمكن لنموذج Byte UNO التعامل مع مجموعة متنوعة من مهام توليد الصور

في الوقت الحاضر، يتم استخدام التوليد المعتمد على الموضوع على نطاق واسع في مجال توليد الصور، لكنه لا يزال يواجه العديد من التحديات في قابلية توسيع البيانات وقابلية توسيع الموضوع. على سبيل المثال، من الصعب بشكل خاص التحول من مجموعة بيانات ذات موضوع واحد إلى مجموعة بيانات ذات مواضيع متعددة وتوسيعها. الاتجاه البحثي الحالي الساخن هو موضوع واحد، والذي يعمل بشكل ضعيف عند مواجهة مهام توليد موضوعات متعددة.
وفي ضوء ذلك،استخدم فريق Intelligent Creation التابع لشركة ByteDance، وهي شركة صينية لتكنولوجيا الإنترنت، قدرة توليد السياق لنموذج المحول الانتشاري لتوليد بيانات مقترنة متعددة الوكلاء ومتسقة للغاية، واقترح نموذج UNO استنادًا إلى FLUX، والذي يمكنه التعامل مع ظروف إدخال مختلفة في مهام توليد الصور.ويستخدم النموذج الجديد "للتطور المشترك بين النموذج والبيانات" لإثراء بيانات التدريب وتحسين جودة وتنوع الصور المولدة مع تحسين أداء النموذج. أجرى الباحثون تجارب مكثفة على DreamBench ومعايير توليد البيانات المعتمدة على وكلاء متعددين. حقق UNO أعلى الدرجات في اختباري DINO وCLIP-I في كلتا المهمتين، مما يدل على أداء ممتاز في تشابه الموضوع وإمكانية التحكم في النص، ليصل إلى مستوى SOTA.
حاليًا، تم إطلاق البرنامج التعليمي "UNO: Universal Customized Image Generation" في قسم البرامج التعليمية بالموقع الرسمي لشركة HyperAI.انقر على الرابط أدناه لتجربته بسرعة↓
رابط البرنامج التعليمي:https://go.hyper.ai/XELg5
تشغيل تجريبي
1. قم بتسجيل الدخول إلى hyper.ai، في صفحة البرامج التعليمية، حدد UNO: Universal Customized Image Generation، ثم انقر فوق تشغيل هذا البرنامج التعليمي عبر الإنترنت.
2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.
3. حدد الصورتين "NVIDIA GeForce RTX 4090" و"PyTorch". توفر منصة OpenBayes أربع طرق للدفع. يمكنك اختيار "الدفع حسب الاستخدام" أو "يوميًا/أسبوعيًا/شهريًا" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://openbayes.com/console/signup?r=Ada0322_NR0n
4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.
عرض التأثير
أدخل النص الذي يصف الصورة المولدة في "المطالبة"، ثم قم بتحميل محتوى الصورة المولدة في "صورة المرجع". اضبط "عرض/ارتفاع التوليد" لتحديد طول/عرض الصورة المولدة، وأخيرًا انقر فوق "توليد".
مقدمة لتعديل المعلمات:
- عدد الخطوات: يمثل عدد تكرارات النموذج أو عدد الخطوات في عملية الاستدلال، ويمثل عدد خطوات التحسين التي يستخدمها النموذج لتوليد النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى إنتاج نتائج أكثر دقة، ولكن قد يؤدي إلى زيادة وقت الحساب.
- إرشاد: يتم استخدامه للتحكم في الدرجة التي تؤثر بها المدخلات الشرطية (مثل النص أو الصور) في النماذج التوليدية على النتائج المولدة. ستعمل قيم التوجيه الأعلى على جعل النتائج المولدة تتطابق بشكل أوثق مع شروط الإدخال، بينما ستحتفظ القيم المنخفضة بمزيد من العشوائية.
- البذرة: هي بذرة الرقم العشوائي، والتي تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.
لقد قمنا هنا بتحميل شعار وصورة كوب، ووصف النص هو: الشعار مطبوع على الكوب. يمكنك أن ترى أن النموذج قام بمعالجة الصورة لنا بدقة شديدة.