Swinv2-Imagen: نماذج توليد الصور من النص تعتمد على التحويلات الهرمية البصرية المبنية على LLM

في الآونة الأخيرة، أثبتت نماذج التبديد (diffusion models) أداءً متميزًا في مهام تحويل النص إلى صورة في عدد من الدراسات، مما فتح آفاقًا جديدة مباشرة للبحث في مجال توليد الصور. ينضم نموذج "Imagen" من جوجل إلى هذا الاتجاه البحثي، ويتفوق على نموذج DALL-E 2 ليصبح أفضل نموذج في توليد الصور من النصوص. ومع ذلك، يعتمد Imagen فقط على نموذج لغوي من نوع T5 لمعالجة النصوص، وهو ما لا يضمن استخلاص المعلومات الدلالية (semantic information) من النصوص. علاوةً على ذلك، فإن شبكة UNet الفعالة (Efficient UNet) التي يستخدمها Imagen ليست الخيار الأمثل في معالجة الصور. لمعالجة هذه المشكلات، نقترح نموذج "Swinv2-Imagen"، وهو نموذج جديد لتوليد الصور من النصوص يعتمد على مُحول بصري هرمي (Hierarchical Visual Transformer) ورسم بياني للمشهد (Scene Graph) يشتمل على تخطيط دلالي. في النموذج المقترح، يتم استخراج متجهات الميزات الخاصة بالكائنات والعلاقات، ودمجها في نموذج التبديد، مما يحسن بشكل فعّال من جودة الصور المولّدة. بالإضافة إلى ذلك، نقدّم بنية جديدة لشبكة UNet تعتمد على مُحول Swin، تُسمى Swinv2-Unet، والتي تُعالج المشكلات الناتجة عن عمليات التصفية (convolution) في الشبكات العصبية التلافيفية (CNN). أجرينا تجارب واسعة لتقييم أداء النموذج المقترح باستخدام ثلاث مجموعات بيانات واقعية، وهي MSCOCO وCUB وMM-CelebA-HQ. أظهرت النتائج التجريبية أن نموذج Swinv2-Imagen المقترح يتفوق على عدة طرق حديثة شهيرة ومتقدمة في مجالها.