HyperAIHyperAI
منذ شهر واحد

توليد الصور من النص مع ثبات الموضوع وتنوع الوضعيات

Zhanxin Gao, Beier Zhu, Liang Yao, Jian Yang, Ying Tai
توليد الصور من النص مع ثبات الموضوع وتنوع الوضعيات
الملخص

الترجمة:تظل التوليد المتسق مع الموضوع (SCG) - الذي يهدف إلى الحفاظ على هوية موضوع متسقة عبر مشاهد متنوعة - تحديًا للنماذج النصية إلى الصورية (T2I). غالبًا ما تحقق الطرق الحالية لـ SCG التي لا تتطلب التدريب اتساقًا على حساب تنوع الأوضاع والأشكال، مما يعيق السرد البصري التعبيري. لمعالجة هذا القصور، نقترح إطار عمل النص إلى الصورة المتسق مع الموضوع ومتعدد الأوضاع، المعروف باسم CoDi، والذي يمكن من توليد موضوعات متسقة مع تنوع كبير في الأوضاع والأشكال. مستوحى من الطبيعة التدريجية للانتشار، حيث تظهر الهياكل الخشنة في وقت مبكر وتتم تصفية التفاصيل الدقيقة في وقت لاحق، يتبنى CoDi استراتيجية ثنائية المرحلة: نقل الهوية (IT) وتصفيح الهوية (IR). تعمل IT في الخطوات الأولى للتخفيف من الضوضاء، باستخدام النقل الأمثل لنقل خصائص الهوية إلى كل صورة مستهدفة بطريقة واعية للأوضاع. وهذا يعزز اتساق الموضوع مع الحفاظ على تنوع الأوضاع. يتم تطبيق IR في الخطوات اللاحقة للتخفيف من الضوضاء، بتحديد أكثر خصائص الهوية بروزًا لتصفية تفاصيل الموضوع بشكل أكبر. أثبتت النتائج النوعية والكمية الواسعة في مجال اتساق الموضوع وتنوع الأوضاع وإخلاص الدعوة أن CoDi يحقق إدراك بصري أفضل وأداءً أقوى في جميع المؤشرات. تم توفير الكود في https://github.com/NJU-PCALab/CoDi.ملاحظات:- "Subject-consistent generation" تم ترجمتها إلى "التوليد المتسق مع الموضوع" (SCG).- "Text-to-image models" تم ترجمتها إلى "النماذج النصية إلى الصورية" (T2I).- "Identity Transport" تم ترجمتها إلى "نقل الهوية" (IT).- "Identity Refinement" تم ترجمتها إلى "تصفيح الهوية" (IR).- "prompt fidelity" تم ترجمتها إلى "إخلاص الدعوة"، وهي تعني مدى دقة الاستجابة للنص الإرشادي.- الرابط الإلكتروني لم يتم تعديله لأنه ثابت ومحدد.

توليد الصور من النص مع ثبات الموضوع وتنوع الوضعيات | أحدث الأوراق البحثية | HyperAI