HyperAIHyperAI
منذ 17 أيام

TextDiffuser-2: إطلاق قوة نماذج اللغة في عرض النصوص

Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
TextDiffuser-2: إطلاق قوة نماذج اللغة في عرض النصوص
الملخص

أثبت نموذج الانتشار (Diffusion Model) أنه نموذج توليدي قوي في السنوات الأخيرة، إلا أنه ما زال يواجه تحديًا في إنشاء النصوص البصرية. ساهمت عدة طرق في تخفيف هذه المشكلة من خلال دمج موضع النص والمضمون النصي بشكل صريح كإرشادات تحدد مكان ونوع النص الذي ينبغي عرضه. ومع ذلك، ما زالت هذه الطرق تعاني من عيوب متعددة، مثل المرونة المحدودة والتحديث التلقائي، وقيود قدرة التنبؤ بالتصميم (layout)، وتنوع الأنماط المحدود. في هذا البحث، نقدّم نموذج TextDiffuser-2، الذي يهدف إلى استغلال كامل إمكانات النماذج اللغوية في عرض النصوص. أولاً، نُعدّل نموذج لغوي كبير (Large Language Model) لغرض تخطيط التصميم (layout planning)، حيث يمتلك القدرة على إنشاء كلمات مفتاحية تلقائيًا لعرض النصوص، كما يدعم تعديل التصميم من خلال المحادثة. ثانيًا، نستخدم النموذج اللغوي ضمن نموذج الانتشار لترميز موضع النصوص ومضمونها على مستوى السطر، بخلاف الطرق السابقة التي اعتمدت إرشادات دقيقة على مستوى الحرف (character-level)، مما يؤدي إلى إنتاج صور نصية أكثر تنوعًا. أجرينا تجارب واسعة ودمجنا دراسات تفاعل مع مشاركين بشريين بالإضافة إلى نموذج GPT-4V، لتأكيد قدرة TextDiffuser-2 على تحقيق تخطيط نصي أكثر منطقية وإنتاج نصوص ذات تنوع محسّن. سيتم توفير الكود والنماذج على الرابط التالي: \url{https://aka.ms/textdiffuser-2}.