HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 14 أيام

إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

الملخص

تطورت نماذج التوليد الصوتي-الصوري بسرعة من أدوات إبداعية عفوية إلى أنظمة احترافية تحقق مستويات غير مسبوقة من جودة الصور وواقعية التمثيل. ومع ذلك، فإن معظم هذه النماذج تُدرّب لتحويل أوامر نصية قصيرة إلى صور مفصلة، مما يخلق فجوة بين الإدخال النصي المحدود والنتائج البصرية الغنية. يؤدي هذا التباين إلى تقليل التحكم في الناتج، إذ تملأ النماذج التفاصيل الناقصة بشكل عشوائي، وتُظهر تحيّزًا نحو تفضيلات المستخدمين المتوسطين، مما يحد من الدقة المطلوبة في الاستخدامات الاحترافية. نعالج هذه القيود من خلال تدريب أول نموذج مفتوح المصدر لتحويل النصوص إلى صور باستخدام عناوين نصية طويلة ومنظمة، حيث يتم تزويд كل عينة تدريبية بقائمة موحدة من السمات الدقيقة. يُعد هذا التصميم مُثلى لتوسيع نطاق التعبير، ويُمكّن من التحكم المنفصل في العوامل البصرية المختلفة. ولضمان معالجة فعّالة للنصوص الطويلة، نُقدّم آلية التكامل "DimFusion"، التي تدمج الرموز الوسيطة من نموذج لغوي خفيف الوزن دون زيادة طول التسلسل النصي. كما نُقدّم أيضًا بروتوكول التقييم المُسمى "إعادة بناء النص كعوائق" (Text-as-a-Bottleneck Reconstruction - TaBR). من خلال تقييم مدى قدرة الصور الحقيقية على الاسترداد عبر دورة توليد وصف نصي، يقيس TaBR بشكل مباشر مفهومي التحكم والتعبير، حتى في حالات العناوين الطويلة جدًا التي تفشل فيها الطرق الحالية للتقييم. وأخيرًا، نُظهر إسهاماتنا من خلال تدريب نموذج واسع النطاق يُسمى FIBO، الذي يحقق أفضل أداء في مطابقة الأوامر النصية بين النماذج المفتوحة المصدر. تُتاح أوزان النموذج للعامة عبر الرابط: https://huggingface.co/briaai/FIBO

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة | الأوراق البحثية | HyperAI