HyperAIHyperAI

Command Palette

Search for a command to run...

Simpler Diffusion (SiD2): 1.5 FID على ImageNet512 باستخدام التمايز في فضاء البكسل

Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans

الملخص

أصبحت نماذج التشتت الخفي (Latent Diffusion Models) الخيار الشائع لتوسيع نماذج التشتت بهدف إنتاج صور عالية الدقة. مقارنة بالنماذج التي تعمل في فضاء البكسل (pixel-space) والتي تُدرَّب بشكل منتهٍ (end-to-end)، يُنظر إلى النماذج الخفية على أنها أكثر كفاءة وتُنتج جودة صورة أعلى عند الدقة العالية. وفي هذا العمل، نتحدى هذه المفاهيم، ونُظهر أن النماذج في فضاء البكسل يمكن أن تكون منافسة قوية للنماذج الخفية من حيث الجودة والكفاءة، حيث تحقق 1.5 في مؤشر FID على ImageNet512، ونتائج قياسية جديدة (SOTA) على ImageNet128 وImageNet256 وKinetics600.نقدّم وصفة بسيطة لتوسيع نماذج التشتت في فضاء البكسل بشكل منتهٍ إلى دقة عالية. أولاً: استخدام وزن الخسارة باستخدام الدالة التوسيعية (sigmoid loss-weighting) (Kingma & Gao, 2023) مع القيم المحددة لمعاملات النموذج. ثانيًا: استخدام معمارية مبسطة وفعّالة من حيث استخدام الذاكرة، مع تقليل عدد الاتصالات الجانبية (skip-connections). ثالثًا: توسيع النموذج بحيث يُفضّل معالجة الصورة بدقة عالية باستخدام عدد أقل من المعاملات، بدلًا من استخدام عدد أكبر من المعاملات عند دقة منخفضة. وبدمج هذه العناصر مع فترات التوجيه (guidance intervals)، نحصل على عائلة من نماذج التشتت في فضاء البكسل نسمّيها "Simpler Diffusion" (SiD2).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Simpler Diffusion (SiD2): 1.5 FID على ImageNet512 باستخدام التمايز في فضاء البكسل | مستندات | HyperAI