نموذج	مفتوح المصدر	اتساق النص والصورة (%)	باستثناء قطع الذكاء الاصطناعي (%)	وضوح الموضوع (%)	الجماليات (%)	الإجمالي (%)
SDXL	✔	64.3	60.6	91.1	76.3	42.7
بيكس آرت-α	✔	68.3	60.9	93.2	77.5	45.5
ملعب 2.5	✔	71.9	70.8	94.9	83.3	54.3
SD 3	✘	77.1	69.3	94.6	82.5	56.7
منتصف الرحلة الإصدار 6	✘	73.5	80.2	93.5	87.2	63.3
دال-إي 3	✘	83.9	80.3	96.5	89.4	71.0
هونيوان-ديت	✔	74.2	74.3	95.4	86.6	59.0

التاريخ

منذ 2 أعوام

الحجم

3.96 GB

الوسوم

Hunyuan-DiT: محول انتشار قوي متعدد الدقة ونموذج فهم صيني دقيق

هذا النموذج هو أول بنية DiT ثنائية اللغة باللغتين الصينية والإنجليزية، وهو نموذج لتوليد النص إلى صورة يعتمد على محول الانتشار، والذي يتمتع بقدرات فهم دقيقة باللغتين الصينية والإنجليزية. من أجل بناء Hunyuan DiT، قام فريق البحث بإعادة تصميم بنية المحول، ومشفر النص، والترميز الموضعي بعناية. تم إنشاء خط أنابيب بيانات كامل لتحديث البيانات وتقييمها، مما يوفر المساعدة لتكرارات تحسين النموذج. لتحقيق فهم دقيق للنص، قام هذا المشروع بتدريب نموذج لغوي كبير متعدد الوسائط لتحسين وصف النص للصور. في نهاية المطاف، يتمكن Hunyuan DiT من إجراء جولات متعددة من المحادثات مع المستخدمين، وإنشاء الصور وتنقيحها استنادًا إلى السياق.

🎉 الميزات الرئيسية لـ Hunyuan-DiT

Hunyuan-DiT هو نموذج انتشار في الفضاء الكامن، كما هو موضح في الشكل أدناه. بناءً على نموذج الانتشار الكامن، يتم استخدام مشفر ذاتي متغير مدرب مسبقًا (VAE) لضغط الصورة في مساحة كامنة منخفضة الأبعاد، ويتم تدريب نموذج الانتشار لتعلم توزيع البيانات. يتم تحديد معلمات نموذج الانتشار باستخدام المحول. لتشفير المطالبات النصية، يستفيد النموذج من مزيج من CLIP ثنائي اللغة (الإنجليزية والصينية) المدرب مسبقًا ومشفرات T5 متعددة اللغات.

إنشاء رسم بياني نصي متعدد الجولات

يعد فهم أوامر اللغة الطبيعية والمشاركة في تفاعلات متعددة الأدوار مع المستخدمين أمرًا مهمًا للغاية بالنسبة للذكاء الاصطناعي. يمكن أن يساعد نظام تحويل النص إلى صورة في بناء عملية إبداعية ديناميكية ومتكررة، وتحويل أفكار المستخدمين إلى حقيقة خطوة بخطوة. في هذا القسم، سنوضح بالتفصيل كيفية منح Hunyuan-DiT القدرة على إجراء حوار متعدد الأدوار وتوليد الصور، وتدريب mlm على فهم حوارات المستخدم متعددة الأدوار، وإخراج مطالبات نصية جديدة لتوليد الصور.

أداء توليد النموذج

إدخال نص طويل

📈 مقارنة مع النماذج الموجودة

من أجل المقارنة الشاملة بين قدرات توليد HunyuanDiT والنماذج الأخرى، قام فريق البحث ببناء مجموعة اختبار رباعية الأبعاد، والتي دعت أكثر من 50 مقيّمًا محترفًا لتقييم الأداء في مجالات بما في ذلك اتساق النص والصورة، واستبعاد آثار الذكاء الاصطناعي، ووضوح الموضوع، والجماليات.

نموذج	مفتوح المصدر	اتساق النص والصورة (%)	باستثناء قطع الذكاء الاصطناعي (%)	وضوح الموضوع (%)	الجماليات (%)	الإجمالي (%)
نموذج	مفتوح المصدر	SDXL	✔	64.3	الجماليات (%)	الإجمالي (%)	60.6	91.1	76.3	42.7
بيكس آرت-α	✔	68.3	60.9	93.2	77.5	45.5
ملعب 2.5	✔	71.9	70.8	94.9	83.3	54.3
SD 3	✘	77.1	69.3	94.6	82.5	56.7
منتصف الرحلة الإصدار 6	✘	73.5	80.2	93.5	87.2	63.3
دال-إي 3	✘	83.9	80.3	96.5	89.4	71.0
هونيوان-ديت	✔	74.2	74.3	95.4	86.6	59.0

استخدام البرنامج التعليمي

1. استنساخ الحاوية وبدء تشغيلها

[ملاحظة] نظرًا لأن النموذج كبير الحجم، فقد يستغرق الأمر من دقيقتين إلى ثلاث دقائق بعد بدء تشغيل الحاوية بنجاح حتى يتم تحميل النموذج قبل أن يتم استخدامه.

2. واجهة المستخدم

كلما زاد عدد خطوات أخذ العينات، كان تأثير التوليد أفضل، ولكن كلما كان وقت التوليد أطول.默认的采样步数生成时间在一分钟左右

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord