نماذج التوليد الصورية من النص واقعية بصريًا مع فهم عميق للغة

نقدّم نموذج Imagen، وهو نموذج توليد صور من نص يمتاز بدرجة غير مسبوقة من الواقعية البصرية وفهم عميق للغة. يعتمد Imagen على قوة نماذج اللغة الكبيرة من نوع المحولات (transformer) في فهم النص، ويتمحور حول قدرة نماذج التفتيت (diffusion models) في توليد صور عالية الدقة. وقد أدى اكتشافنا الرئيسي إلى أن النماذج اللغوية الكبيرة العامة (مثل T5)، التي تم تدريبها مسبقًا على مجموعات نصية فقط، فعّالة بشكل مفاجئ في ترميز النص لغرض توليد الصور: فزيادة حجم نموذج اللغة في Imagen تُحسّن من دقة العينات والتوافق بين الصورة والنص بشكل أكبر بكثير من زيادة حجم نموذج تفتيت الصور. وحقق Imagen تقدّمًا جديدًا في مستوى الأداء (state-of-the-art) بتحقيقه درجة FID مقدارها 7.27 على مجموعة بيانات COCO، دون أي تدريب مسبق على COCO، ويُعتبر أن عينات Imagen تُقاس بمستوى مماثل للبيانات الأصلية من COCO من حيث التوافق بين الصورة والنص، وفقًا لتقييمات البشر. ولتقييم نماذج التوليد من النص إلى الصورة بشكل أعمق، قمنا بتطوير DrawBench، وهو معيار شامل وصعب لاختبار نماذج التوليد من النص إلى الصورة. وباستخدام DrawBench، قارنا Imagen مع أساليب حديثة مثل VQ-GAN+CLIP ونماذج التفتيت المُتَوَسِّطة (Latent Diffusion Models) وDALL-E 2، ووجدنا أن المُقيّمين البشريين يفضلون Imagen على النماذج الأخرى في المقارنات المباشرة، سواء من حيث جودة العينات أو التوافق بين الصورة والنص. لمزيد من التفاصيل حول النتائج، يُرجى زيارة: https://imagen.research.google/