HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التوليد الصوتي القائم على الانتشار باستخدام التنبؤ بالسياق

Ling Yang Jingwei Liu Shenda Hong Zhilong Zhang Zhilin Huang Zheming Cai Wentao Zhang Bin Cui

الملخص

تمثّل نماذج التشتت فئة جديدة من النماذج التوليدية، وقد دفعت بشكل كبير توليد الصور بجودة وتنوع غير مسبوقين. تعتمد النماذج الحالية للتلوين بشكل رئيسي على إعادة بناء الصورة المدخلة من صورة مُتضررة باستخدام قيود نقطية (بُكسلية أو ميزةً على طول المحاور الفضائية). ومع ذلك، قد يفشل هذا النموذج القائم على النقاط في ضمان الحفاظ الكامل للسياق المجاور لكل بكسل/ميزة مُنبَتة، مما يُضعف جودة التوليد القائم على التشتت. وبما أن السياق يُعد مصدرًا قويًا للإشراف التلقائي، فقد تم دراسته بشكل واسع لتعلم التمثيلات. مستوحاة من هذا، نُقدّم لأول مرة نموذج ConPreDiff لتحسين توليد الصور القائم على التشتت من خلال توقع السياق. نُعزّز بشكل صريح كل نقطة لتتنبأ بسياقها المجاور (أي الميزات/الرموز/البكسل ذات التدرج المتعدد) باستخدام فكّ ترميز السياق في نهاية كتل إزالة الضوضاء في مرحلة التدريب، ثم نُزيل هذا المُفكّك أثناء الاستنتاج. وبهذا، يمكن لكل نقطة إعادة بناء نفسها بشكل أفضل من خلال الحفاظ على ارتباطاتها الدلالية مع السياق المجاور. يُمكن لهذا النموذج الجديد من نوع ConPreDiff التعميم على أي هيكل أساسي للتلوين (متقطع أو مستمر) دون إدخال معلمات إضافية في عملية العينة. أُجريت تجارب واسعة على مهام توليد الصور غير المشروطة، وتحويل النص إلى صورة، وإصلاح الصور. وقد أظهر ConPreDiff تفوقًا مستمرًا على الطرق السابقة، وحقق نتائج قياسية جديدة (SOTA) في توليد الصور من النص على مجموعة بيانات MS-COCO، بدرجة FID صفرية (zero-shot) قدرها 6.21.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp