HyperAIHyperAI

Command Palette

Search for a command to run...

كلا من الدلالة وإعادة البناء مهمان: جعل مشفرات التمثيل جاهزة لإنشاء الصور من النص وتحريرها

Abstract

تنفذ النماذج الحديثة للانسحاب المخفي (LDMs) عادةً في فضاءات مخزونية منخفضة المستوى (VAE) التي تُحسَّن بشكل رئيسي لاستعادة الصور على مستوى البكسل. لتوحيد إنشاء الرؤية وفهمها، تُظهر اتجاهات متنامية اعتماد ميزات عالية الأبعاد من مُشفرات التمثيل كمجالات مخزونية للإنشاء. ومع ذلك، نُحدِّد تجريبيًا عقبتين أساسيتين في هذا النموذج: (1) يفتقر فضاء الميزات التمييزية إلى تنظيم مكثف، مما يجعل نماذج الانسحاب عرضة للاستناد إلى مساحات مخزونية خارج المدّ، ما يؤدي إلى تشويه هياكل الكائنات؛ و(2) تُعاني مُشفرات التمثيل من ضعف القدرة على استعادة البكسل على المستوى الدقيق، مما يُعيق القدرة على تعلُّم تفاصيل هندسية وملمس دقيقة بدقة. في هذا البحث، نُقدِّم إطارًا منهجيًا لتكيف ميزات مُشفرات التوجيه نحو المهام الإنشائية. ونُقدِّم هدفًا مُعادلًا لاستعادة المعنى والبكسل لتنظيم فضاء المخزون، مما يمكّن من ضغط كل من المعلومات الدلالية والتفاصيل الدقيقة في تمثيل مكثف جدًا (96 قناة مع تقليل مكاني 16×16). يضمن هذا التصميم أن يظل فضاء المخزون غنيًا دلاليًا، ويحقق استعادة صور على مستوى الأفضل في الفئة، مع الحفاظ على الكثافة الكافية لضمان إنشاء دقيق. وباستخدام هذا التمثيل، نصمم نموذجًا موحدًا للتحويل من النص إلى الصورة (T2I) وتحرير الصور. وعند مقارنة أداءه مع مساحات ميزات مختلفة، نُظهر أن نهجنا يحقق استعادة صور على مستوى الأفضل، وانطلاقًا أسرع، وتحسينًا كبيرًا في كلا المهمتين: التوليد من النص والتحرير، مما يُثبت أن مُشفرات التمثيل يمكن تكييفها بشكل فعّال لتصبح مكونات إنشائية قوية.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp