راي-Imagen: مُولِّد صور من نص مُعزَّز بالاسترجاع

أظهرت الأبحاث المتعلقة بإنشاء الصور من النص تقدماً كبيراً في إنتاج صور متنوعة وواقعية، مدفوعة بنموذج التشتت (diffusion) والنموذج التلقائي التسلسلي (auto-regressive) الذي تم تدريبه على بيانات صور ونصوص واسعة النطاق. وعلى الرغم من أن النماذج الرائدة في المجال تُنتج صوراً عالية الجودة للعوامل الشائعة، إلا أنها غالبًا ما تواجه صعوبة في إنشاء صور للعوامل النادرة، مثل "كلب تشورتاي" أو "طعام بيكارونس". ولحل هذه المشكلة، نقدّم نموذجًا توليدياً يُسمى "مُولِّد الصور من النص المُعزّز بالاسترجاع" (Re-Imagen)، وهو نموذج توليد يعتمد على المعلومات المسترجعة لإنتاج صور عالية الدقة والموثوقية، حتى بالنسبة للعوامل النادرة أو غير المُشاهدَة مسبقاً. عند تلقي نص مُدخل (prompt)، يُجري Re-Imagen استرجاعاً من قاعدة بيانات خارجية متعددة الوسائط (multi-modal knowledge base) للحصول على أزواج ذات صلة (صورة، نص)، ويستخدم هذه الأزواج كمرجع لتوليد الصورة النهائية. وبفضل هذه الخطوة الاسترجاعية، يُغنَى نموذج Re-Imagen بمعرفة تفصيلية على المستويين العالي (الدلالات المفاهيمية) والمنخفض (التفاصيل البصرية) للعوامل المذكورة، مما يُحسّن دقة توليد مظهرها البصري. تم تدريب Re-Imagen على مجموعة بيانات مُنشأة تحتوي على ثلاثيات (صورة، نص، استرجاع) لتعليم النموذج التماسك مع كل من النص المُدخل والاسترجاع. علاوة على ذلك، طوّرنا استراتيجية عينة جديدة تُدمج بين التوجيه غير المصنف (classifier-free guidance) للنصوص والظروف الاسترجاعية، بهدف تحقيق توازن بين التوافق مع النص والاسترجاع. أظهر Re-Imagen تحسناً ملحوظاً في معيار FID مقارنةً ببيانات COCO وWikiImage. ولتقييم أداء النموذج بشكل أعمق، قمنا بإدخال "EntityDrawBench"، وهو معيار جديد لتقييم إنشاء الصور للعوامل المتنوعة، من الشائعة إلى النادرة، عبر فئات كثيرة من الكائنات مثل الكلاب، والطعام، والمعالم السياحية، والطيور، والأحرف. وخلال التقييم البشري على معيار EntityDrawBench، أظهر Re-Imagen تحسناً كبيراً في واقعية الصور المولّدة، خاصة بالنسبة للعوامل الأقل شيوعاً.