تحسين التوليد الصوتي القائم على الانتشار باستخدام التنبؤ بالسياق

تمثّل نماذج التشتت فئة جديدة من النماذج التوليدية، وقد دفعت بشكل كبير توليد الصور بجودة وتنوع غير مسبوقين. تعتمد النماذج الحالية للتلوين بشكل رئيسي على إعادة بناء الصورة المدخلة من صورة مُتضررة باستخدام قيود نقطية (بُكسلية أو ميزةً على طول المحاور الفضائية). ومع ذلك، قد يفشل هذا النموذج القائم على النقاط في ضمان الحفاظ الكامل للسياق المجاور لكل بكسل/ميزة مُنبَتة، مما يُضعف جودة التوليد القائم على التشتت. وبما أن السياق يُعد مصدرًا قويًا للإشراف التلقائي، فقد تم دراسته بشكل واسع لتعلم التمثيلات. مستوحاة من هذا، نُقدّم لأول مرة نموذج ConPreDiff لتحسين توليد الصور القائم على التشتت من خلال توقع السياق. نُعزّز بشكل صريح كل نقطة لتتنبأ بسياقها المجاور (أي الميزات/الرموز/البكسل ذات التدرج المتعدد) باستخدام فكّ ترميز السياق في نهاية كتل إزالة الضوضاء في مرحلة التدريب، ثم نُزيل هذا المُفكّك أثناء الاستنتاج. وبهذا، يمكن لكل نقطة إعادة بناء نفسها بشكل أفضل من خلال الحفاظ على ارتباطاتها الدلالية مع السياق المجاور. يُمكن لهذا النموذج الجديد من نوع ConPreDiff التعميم على أي هيكل أساسي للتلوين (متقطع أو مستمر) دون إدخال معلمات إضافية في عملية العينة. أُجريت تجارب واسعة على مهام توليد الصور غير المشروطة، وتحويل النص إلى صورة، وإصلاح الصور. وقد أظهر ConPreDiff تفوقًا مستمرًا على الطرق السابقة، وحقق نتائج قياسية جديدة (SOTA) في توليد الصور من النص على مجموعة بيانات MS-COCO، بدرجة FID صفرية (zero-shot) قدرها 6.21.