HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 6 أيام

الدلالات تقود الطريق: مواءمة النمذجة الدلالية والنمذجة النسيجية باستخدام التمايز الخفي المتزامن غير المتماثل

Yueming Pan Ruoyu Feng Qi Dai Yuqi Wang Wenfeng Lin Mingyu Guo Chong Luo Nanning Zheng

الدلالات تقود الطريق: مواءمة النمذجة الدلالية والنمذجة النسيجية باستخدام التمايز الخفي المتزامن غير المتماثل

الملخص

النماذج التلقائية للانتشار (LDMs) تتبع بشكل طبيعي عملية توليد من العامة إلى الخاص، حيث يتم إنتاج البنية الدلالية عالية المستوى قبل قليلاً من النسيج الدقيق. وهذا يشير إلى أن الدلالة السابقة قد تفيد في توليد النسيج من خلال توفير نقطة دلالية. وقد تم مؤخرًا دمج المُسبقات الدلالية من مُشفّرات بصرية مُدرّبة مسبقًا لتعزيز LDMs أكثر، لكنها لا تزال تقوم بتصفية الضوضاء للدلالة والنسيج المشفر باستخدام VAE بشكل متزامن، مما يتجاهل هذا الترتيب الزمني. بالنظر إلى هذه الملاحظات، نقترح نموذج الانتشار الأول الدلالي (SFD)، وهو منهجية جديدة للانتشار في الفضاء التلقائي تُعطي أولوية صريحة لتكوين الدلالة. يقوم SFD أولاً ببناء لاتنتات مركبة من خلال دمج لاتنت دلالية مختصرة، يتم استخلاصها من مُشفّر بصري مُدرّب مسبقًا عبر مُشفّر دلالي مخصص (Semantic VAE)، مع اللاتنت النسيجي. وجوهر SFD يتمثل في تصفية الضوضاء للدلالة والنسج بشكل غير متزامن باستخدام جداول ضوضاء منفصلة: حيث تسبق الدلالة النسيج بفارق زمني، مما يوفر توجيهًا واضحًا على المستوى العالي لتحسين النسيج، ويُمكّن من عملية توليد طبيعية من العامة إلى الخاص. على مجموعة بيانات ImageNet بحجم 256x256 مع التوجيه، حقق SFD مؤشر FID 1.06 (LightningDiT-XL) وFID 1.04 (1.0B LightningDiT-XXL)، مع تسريع يصل إلى 100 مرة في التقارب مقارنة بالنموذج الأصلي DiT. كما يُحسّن SFD من أداء الطرق الحالية مثل ReDi وVA-VAE، مما يُظهر فعالية النمذجة غير المتزامنة والمرتكزة على الدلالة. صفحة المشروع والكود: https://yuemingpan.github.io/SFD.github.io/.

مستودعات الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدلالات تقود الطريق: مواءمة النمذجة الدلالية والنمذجة النسيجية باستخدام التمايز الخفي المتزامن غير المتماثل | الأوراق البحثية | HyperAI