HyperAIHyperAI
منذ 17 أيام

eDiff-I: نماذج التمايز من النص إلى الصورة مع مجموعة من مزيلات التشويش الخبير

Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu
eDiff-I: نماذج التمايز من النص إلى الصورة مع مجموعة من مزيلات التشويش الخبير
الملخص

أدت النماذج التوليدية الكبيرة القائمة على الانتشار إلى تطورات كبيرة في توليد الصور عالية الدقة القائمة على النص. تبدأ هذه النماذج، التي تُعرف بنماذج الانتشار من النص إلى الصورة، من ضجيج عشوائي، وتصنَع الصور تدريجيًا عبر عملية تكرارية، مع التأثير بنصوص التحفيز. وجدنا أن سلوك التوليد يتغير نوعيًا خلال هذه العملية: في المراحل المبكرة من العينة، يعتمد التوليد بشكل قوي على النص التحفيزي لإنتاج محتوى متماشٍ مع النص، بينما في المراحل اللاحقة، يُهمل التأثير الناتج عن النص تقريبًا. ويشير هذا إلى أن مشاركة نفس المعلمات النموذجية على مدار العملية الكاملة للتوليد قد لا تكون مثالية. لذلك، على عكس الدراسات السابقة، نقترح تدريب مجموعة من نماذج الانتشار من النص إلى الصورة، مخصصة لكل مرحلة من مراحل التوليد. ولضمان كفاءة التدريب، نبدأ بتدريب نموذج واحد، ثم نقسمه إلى نماذج مخصصة، يتم تدريب كل منها على مرحلة محددة من عملية التوليد التكرارية. تُظهر مجموعتنا من نماذج الانتشار، التي تُسمى eDiff-I، تحسنًا في التماسك النصي مع الحفاظ على نفس تكلفة الحساب أثناء الاستنتاج، وتحافظ على جودة بصرية عالية، وتتفوق على النماذج السابقة الكبيرة من نماذج الانتشار من النص إلى الصورة في المعايير القياسية القياسية. علاوة على ذلك، قمنا بتدريب نموذجنا للاستفادة من مجموعة متنوعة من التضمينات (embeddings) في التحفيز، بما في ذلك تضمينات T5 النصية، وCLIP النصية، وCLIP الصورية. ونُظهر أن هذه التضمينات المختلفة تؤدي إلى سلوك متنوع. ويشير بشكل ملحوظ إلى أن تضمين صورة CLIP يتيح طريقة مباشرة لنقل نمط صورة مرجعية إلى الناتج النهائي من النص إلى الصورة. وأخيرًا، نُظهر تقنية تُمكّن eDiff-I من ميزة "الرسم بالكلمات" (paint-with-words). حيث يمكن للمستخدم اختيار كلمة من النص المدخل، ثم رسمها على لوحة رسم للتحكم في الناتج، وهي ميزة مفيدة جدًا لتصميم الصورة المرغوبة داخليًا. يمكن الاطلاع على صفحة المشروع من خلال الرابط التالي: https://deepimagination.cc/eDiff-I/