نمط واحد يساوي رمزًا واحدًا: فتح إمكانية توليد الصور من النمط عبر الفضاء النمطي المنفصل
Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

الملخص
الاستylization البصري المبتكر يُعد حجر الزاوية في الإبداع الفني، ومع ذلك، لا يزال إنتاج أنماط بصرية جديدة وثابتة يمثل تحديًا كبيرًا. تعتمد الطرق التوليدية الحالية عادةً على وصفات نصية طويلة، أو صور مرجعية، أو تدريبًا دقيقًا فعّالًا من حيث الموارد لتنبيه توليد الصور المُستندة إلى الأسلوب، لكنها غالبًا ما تواجه صعوبات في الحفاظ على اتساق الأسلوب، وتحتاج إلى إبداع محدود، وتمثيلات معقدة للأنماط. في هذا البحث، نؤكد أن الأسلوب يستحق رمزًا رقميًا واحدًا من خلال تقديم مهمة جديدة تُسمى "توليد الصور من الرمز الرقمي للأسلوب"، التي تُولِّد صورًا بأساليب بصرية جديدة وثابتة، مُشَرَّعَة فقط برمز رقمي للأسلوب. حتى الآن، كانت هذه المجال مُستكشفة بشكل أساسي من قبل القطاع الصناعي (مثل Midjourney)، دون وجود أي أبحاث مفتوحة المصدر من المجتمع الأكاديمي. ولسد هذه الفجوة، نقترح CoTyle، وهي أول طريقة مفتوحة المصدر لهذا المهمة. بشكل خاص، نبدأ بتدريب كتابة رقمية مُفصّلة للأساليب من مجموعة من الصور لاستخلاص تمثيلات الأسلوب (style embeddings). ثم تُستخدم هذه التمثيلات كشروط لنموذج توليد صور من نص (T2I-DM) لتكوين صور بأسلوب معين. بعدها، نُدرّب مُولِّد أسلوب تلقائي (autoregressive style generator) على التمثيلات الرقمية المُفصّلة للأساليب لتمثيل توزيعها، مما يمكّن من توليد تمثيلات أسلوبية جديدة. أثناء الاستدلال، يُحَوَّل الرمز الرقمي للأسلوب إلى تمثيل أسلوب فريد بواسطة مُولِّد الأسلوب، ويُوجِّه هذا التمثيل نموذج T2I-DM لتكوين صور بأسلوب مطابق. على عكس الطرق الحالية، تُقدِّم طريقة نحن بسيطة غير مسبوقة وغنية بالتنوع، وتفتح مساحة واسعة من الأنماط القابلة للتكرار من مدخلات محدودة. وتحتَّم التجارب الواسعة أن CoTyle تُحَوِّل بفعالية رمزًا رقميًا إلى مُتحكم في الأسلوب، مُثبتة أن الأسلوب يستحق رمزًا واحدًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.