HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

نمط واحد يساوي رمزًا واحدًا: فتح إمكانية توليد الصور من النمط عبر الفضاء النمطي المنفصل

Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

نمط واحد يساوي رمزًا واحدًا: فتح إمكانية توليد الصور من النمط عبر الفضاء النمطي المنفصل

الملخص

الاستylization البصري المبتكر يُعد حجر الزاوية في الإبداع الفني، ومع ذلك، لا يزال إنتاج أنماط بصرية جديدة وثابتة يمثل تحديًا كبيرًا. تعتمد الطرق التوليدية الحالية عادةً على وصفات نصية طويلة، أو صور مرجعية، أو تدريبًا دقيقًا فعّالًا من حيث الموارد لتنبيه توليد الصور المُستندة إلى الأسلوب، لكنها غالبًا ما تواجه صعوبات في الحفاظ على اتساق الأسلوب، وتحتاج إلى إبداع محدود، وتمثيلات معقدة للأنماط. في هذا البحث، نؤكد أن الأسلوب يستحق رمزًا رقميًا واحدًا من خلال تقديم مهمة جديدة تُسمى "توليد الصور من الرمز الرقمي للأسلوب"، التي تُولِّد صورًا بأساليب بصرية جديدة وثابتة، مُشَرَّعَة فقط برمز رقمي للأسلوب. حتى الآن، كانت هذه المجال مُستكشفة بشكل أساسي من قبل القطاع الصناعي (مثل Midjourney)، دون وجود أي أبحاث مفتوحة المصدر من المجتمع الأكاديمي. ولسد هذه الفجوة، نقترح CoTyle، وهي أول طريقة مفتوحة المصدر لهذا المهمة. بشكل خاص، نبدأ بتدريب كتابة رقمية مُفصّلة للأساليب من مجموعة من الصور لاستخلاص تمثيلات الأسلوب (style embeddings). ثم تُستخدم هذه التمثيلات كشروط لنموذج توليد صور من نص (T2I-DM) لتكوين صور بأسلوب معين. بعدها، نُدرّب مُولِّد أسلوب تلقائي (autoregressive style generator) على التمثيلات الرقمية المُفصّلة للأساليب لتمثيل توزيعها، مما يمكّن من توليد تمثيلات أسلوبية جديدة. أثناء الاستدلال، يُحَوَّل الرمز الرقمي للأسلوب إلى تمثيل أسلوب فريد بواسطة مُولِّد الأسلوب، ويُوجِّه هذا التمثيل نموذج T2I-DM لتكوين صور بأسلوب مطابق. على عكس الطرق الحالية، تُقدِّم طريقة نحن بسيطة غير مسبوقة وغنية بالتنوع، وتفتح مساحة واسعة من الأنماط القابلة للتكرار من مدخلات محدودة. وتحتَّم التجارب الواسعة أن CoTyle تُحَوِّل بفعالية رمزًا رقميًا إلى مُتحكم في الأسلوب، مُثبتة أن الأسلوب يستحق رمزًا واحدًا.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نمط واحد يساوي رمزًا واحدًا: فتح إمكانية توليد الصور من النمط عبر الفضاء النمطي المنفصل | الأوراق البحثية | HyperAI