HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 8 أيام

نموذج الت(diffusion) الخفي دون مُشفِّر تلقائي تبايني

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

نموذج الت(diffusion) الخفي دون مُشفِّر تلقائي تبايني

الملخص

أدى التقدم الأخير في توليد الصور القائمة على التبديد إلى الاعتماد الكبير على نماذج التبديد المُخزَّنة التي تعتمد على مُشفِّرات التوليد التلقائي التبايني (VAEs). وعلى الرغم من فعاليتها في توليد صور عالية الوضوح، فإن النموذج المُعتمد على VAE+التبديد يعاني من كفاءة تدريب محدودة، وسرعة استنتاج بطيئة، وقلة قابلية التحويل إلى مهام بصرية أوسع. وتنبع هذه المشكلات من خلل رئيسي في فضاءات التمثيل المُخزَّنة لـ VAE: وهو غياب الفصل الدلالي الواضح والبنية التمييزية القوية. وتوصل تحليلنا إلى أن هذه الخصائص تُعدّ حاسمة ليس فقط لمهام الإدراك والفهم، بل أيضًا لتدريب نماذج التبديد المُخزَّنة بشكل مستقر وفعال. استنادًا إلى هذا التحليل، نقدّم SVG، وهو نموذج جديد للتبديد المُخزَّن لا يعتمد على مُشفِّرات التوليد التلقائي التبايني، ويستفيد من تمثيلات ذاتية التدريب (self-supervised representations) لغرض توليد الصور. يُنشئ SVG فضاء ميزات يتميز بتمييز دلالي واضح من خلال استغلال ميزات DINO المُجمَّدة، في حين يُعوّض فرع خفيف الوزن مُستقل بجمع التفاصيل الدقيقة لضمان إعادة بناء عالية الوضوح. ويتم تدريب نماذج التبديد مباشرةً على هذا الفضاء المُخزَّن المُهيكل دلاليًا، مما يُسهّل التعلُّم بشكل أكثر كفاءة. ونتيجة لذلك، يُمكّن SVG من تسريع عملية تدريب التبديد، ويدعم العينات بخطوات قليلة، ويعزز جودة التوليد. كما تُظهر النتائج التجريبية أن SVG يحافظ على القدرات الدلالية والتوصيفية للتمثيلات ذاتية التدريب الأساسية، مما يوفّر طريقًا منهجيًا نحو تمثيلات بصرية عامة للمهام، عالية الجودة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نموذج الت(diffusion) الخفي دون مُشفِّر تلقائي تبايني | الأوراق البحثية | HyperAI