الملخص

تطورت نماذج التوليد الصوتي-الصوري بسرعة من أدوات إبداعية عفوية إلى أنظمة احترافية تحقق مستويات غير مسبوقة من جودة الصور وواقعية التمثيل. ومع ذلك، فإن معظم هذه النماذج تُدرّب لتحويل أوامر نصية قصيرة إلى صور مفصلة، مما يخلق فجوة بين الإدخال النصي المحدود والنتائج البصرية الغنية. يؤدي هذا التباين إلى تقليل التحكم في الناتج، إذ تملأ النماذج التفاصيل الناقصة بشكل عشوائي، وتُظهر تحيّزًا نحو تفضيلات المستخدمين المتوسطين، مما يحد من الدقة المطلوبة في الاستخدامات الاحترافية. نعالج هذه القيود من خلال تدريب أول نموذج مفتوح المصدر لتحويل النصوص إلى صور باستخدام عناوين نصية طويلة ومنظمة، حيث يتم تزويд كل عينة تدريبية بقائمة موحدة من السمات الدقيقة. يُعد هذا التصميم مُثلى لتوسيع نطاق التعبير، ويُمكّن من التحكم المنفصل في العوامل البصرية المختلفة. ولضمان معالجة فعّالة للنصوص الطويلة، نُقدّم آلية التكامل "DimFusion"، التي تدمج الرموز الوسيطة من نموذج لغوي خفيف الوزن دون زيادة طول التسلسل النصي. كما نُقدّم أيضًا بروتوكول التقييم المُسمى "إعادة بناء النص كعوائق" (Text-as-a-Bottleneck Reconstruction - TaBR). من خلال تقييم مدى قدرة الصور الحقيقية على الاسترداد عبر دورة توليد وصف نصي، يقيس TaBR بشكل مباشر مفهومي التحكم والتعبير، حتى في حالات العناوين الطويلة جدًا التي تفشل فيها الطرق الحالية للتقييم. وأخيرًا، نُظهر إسهاماتنا من خلال تدريب نموذج واسع النطاق يُسمى FIBO، الذي يحقق أفضل أداء في مطابقة الأوامر النصية بين النماذج المفتوحة المصدر. تُتاح أوزان النموذج للعامة عبر الرابط: https://huggingface.co/briaai/FIBO

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إنشاء صورة من 1000 كلمة: تحسين التوليد النصي إلى الصورة باستخدام عناوين منظمة

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg

Eyal Gutflaish Eliran Kachlon Hezi Zisman Tal Hacham Nimrod Sarid Alexander Visheratin Saar Huberman Gal Davidi Guy Bukchin Kfir Goldberg