إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

الملخص
تطورت نماذج التوليد الصوتي-الصوري بسرعة من أدوات إبداعية عفوية إلى أنظمة احترافية تحقق مستويات غير مسبوقة من جودة الصور وواقعية التمثيل. ومع ذلك، فإن معظم هذه النماذج تُدرّب لتحويل أوامر نصية قصيرة إلى صور مفصلة، مما يخلق فجوة بين الإدخال النصي المحدود والنتائج البصرية الغنية. يؤدي هذا التباين إلى تقليل التحكم في الناتج، إذ تملأ النماذج التفاصيل الناقصة بشكل عشوائي، وتُظهر تحيّزًا نحو تفضيلات المستخدمين المتوسطين، مما يحد من الدقة المطلوبة في الاستخدامات الاحترافية. نعالج هذه القيود من خلال تدريب أول نموذج مفتوح المصدر لتحويل النصوص إلى صور باستخدام عناوين نصية طويلة ومنظمة، حيث يتم تزويд كل عينة تدريبية بقائمة موحدة من السمات الدقيقة. يُعد هذا التصميم مُثلى لتوسيع نطاق التعبير، ويُمكّن من التحكم المنفصل في العوامل البصرية المختلفة. ولضمان معالجة فعّالة للنصوص الطويلة، نُقدّم آلية التكامل "DimFusion"، التي تدمج الرموز الوسيطة من نموذج لغوي خفيف الوزن دون زيادة طول التسلسل النصي. كما نُقدّم أيضًا بروتوكول التقييم المُسمى "إعادة بناء النص كعوائق" (Text-as-a-Bottleneck Reconstruction - TaBR). من خلال تقييم مدى قدرة الصور الحقيقية على الاسترداد عبر دورة توليد وصف نصي، يقيس TaBR بشكل مباشر مفهومي التحكم والتعبير، حتى في حالات العناوين الطويلة جدًا التي تفشل فيها الطرق الحالية للتقييم. وأخيرًا، نُظهر إسهاماتنا من خلال تدريب نموذج واسع النطاق يُسمى FIBO، الذي يحقق أفضل أداء في مطابقة الأوامر النصية بين النماذج المفتوحة المصدر. تُتاح أوزان النموذج للعامة عبر الرابط: https://huggingface.co/briaai/FIBO
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.