HyperAI

تينسنت HunyuanDiT Wenshengtu التجريبي

Hunyuan-DiT: محول انتشار قوي متعدد الدقة ونموذج فهم صيني دقيق

هذا النموذج هو أول بنية DiT ثنائية اللغة باللغتين الصينية والإنجليزية، وهو نموذج لتوليد النص إلى صورة يعتمد على محول الانتشار، والذي يتمتع بقدرات فهم دقيقة باللغتين الصينية والإنجليزية. من أجل بناء Hunyuan DiT، قام فريق البحث بإعادة تصميم بنية المحول، ومشفر النص، والترميز الموضعي بعناية. تم إنشاء خط أنابيب بيانات كامل لتحديث البيانات وتقييمها، مما يوفر المساعدة لتكرارات تحسين النموذج. لتحقيق فهم دقيق للنص، قام هذا المشروع بتدريب نموذج لغوي كبير متعدد الوسائط لتحسين وصف النص للصور. في نهاية المطاف، يتمكن Hunyuan DiT من إجراء جولات متعددة من المحادثات مع المستخدمين، وإنشاء الصور وتنقيحها استنادًا إلى السياق.

🎉 الميزات الرئيسية لـ Hunyuan-DiT

Hunyuan-DiT هو نموذج انتشار في الفضاء الكامن، كما هو موضح في الشكل أدناه. بناءً على نموذج الانتشار الكامن، يتم استخدام مشفر ذاتي متغير مدرب مسبقًا (VAE) لضغط الصورة في مساحة كامنة منخفضة الأبعاد، ويتم تدريب نموذج الانتشار لتعلم توزيع البيانات. يتم تحديد معلمات نموذج الانتشار باستخدام المحول. لتشفير المطالبات النصية، يستفيد النموذج من مزيج من CLIP ثنائي اللغة (الإنجليزية والصينية) المدرب مسبقًا ومشفرات T5 متعددة اللغات.


إنشاء رسم بياني نصي متعدد الجولات

يعد فهم أوامر اللغة الطبيعية والمشاركة في تفاعلات متعددة الأدوار مع المستخدمين أمرًا مهمًا للغاية بالنسبة للذكاء الاصطناعي. يمكن أن يساعد نظام تحويل النص إلى صورة في بناء عملية إبداعية ديناميكية ومتكررة، وتحويل أفكار المستخدمين إلى حقيقة خطوة بخطوة. في هذا القسم، سنوضح بالتفصيل كيفية منح Hunyuan-DiT القدرة على إجراء حوار متعدد الأدوار وتوليد الصور، وتدريب mlm على فهم حوارات المستخدم متعددة الأدوار، وإخراج مطالبات نصية جديدة لتوليد الصور.


أداء توليد النموذج

  • إدخال نص طويل

📈 مقارنة مع النماذج الموجودة

من أجل المقارنة الشاملة بين قدرات توليد HunyuanDiT والنماذج الأخرى، قام فريق البحث ببناء مجموعة اختبار رباعية الأبعاد، والتي دعت أكثر من 50 مقيّمًا محترفًا لتقييم الأداء في مجالات بما في ذلك اتساق النص والصورة، واستبعاد آثار الذكاء الاصطناعي، ووضوح الموضوع، والجماليات.

نموذجمفتوح المصدراتساق النص والصورة (%)باستثناء قطع الذكاء الاصطناعي (%)وضوح الموضوع (%)الجماليات (%)الإجمالي (%)
SDXL64.360.691.176.342.7
بيكس آرت-α68.360.993.277.545.5
ملعب 2.571.970.894.983.354.3
SD 377.169.394.682.556.7
منتصف الرحلة الإصدار 673.580.293.587.263.3
دال-إي 383.980.396.589.471.0
هونيوان-ديت74.274.395.486.659.0

استخدام البرنامج التعليمي

1. استنساخ الحاوية وبدء تشغيلها

  • [ملاحظة] نظرًا لأن النموذج كبير الحجم، فقد يستغرق الأمر من دقيقتين إلى ثلاث دقائق بعد بدء تشغيل الحاوية بنجاح حتى يتم تحميل النموذج قبل أن يتم استخدامه.

2. واجهة المستخدم

كلما زاد عدد خطوات أخذ العينات، كان تأثير التوليد أفضل، ولكن كلما كان وقت التوليد أطول.默认的采样步数生成时间在一分钟左右