Cheng Liu Yiren Song Haofan Wang Mike Zheng Shou

الملخص
أحرزت النماذج الانتشارية تقدماً كبيراً في توليد الصور وتحريرها، إلا أن توليد ملفات PSD متعددة الطبقات ذات قنوات شفافة (Alpha) أو استرجاعها يظل تحدياً كبيراً. نحن نقترح "OmniPSD"، وهي إطار موحد مبني على منظومة Flux، يتيح توليد ملفات PSD من نصوص وتحليل صور إلى ملفات PSD من خلال التعلم السياقي. في حالة توليد PSD من نص، تقوم OmniPSD بترتيب الطبقات المستهدفة متعددة في مساحة واحدة (Canvas) وتعلّم علاقاتها التراكيبية من خلال الانتباه المكاني، مما ينتج طبقات متماسكة من الناحية الدلالية ومرتبة هرمياً. أما في حالة تحليل الصورة إلى PSD، فإنها تُنفّذ تحريراً تكرارياً في السياق، استخراجًا تدريجياً للمكونات النصية والخلفية، وحذفها تدريجياً، لاسترجاع طبقات PSD قابلة للتحرير من صورة مسطحة واحدة. وتُستخدم وحدة تمثيل مساعدة تُسمى RGBA-VAE لحفظ الشفافية دون التأثير على تعلّم البنية. أظهرت التجارب الواسعة على مجموعة بياناتنا الجديدة المبنية على الطبقات RGBA أن OmniPSD تحقق توليداً عالي الجودة، واتساقاً هيكلياً، ووعياً بالشفافية، مقدمة نموذجاً جديداً لعملية توليد وتحليل التصميمات متعددة الطبقات باستخدام المحولات الانتشارية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.