HyperAIHyperAI

Command Palette

Search for a command to run...

بيكس نيرد: تشتت الحقل العصبي البكسلية

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

الملخص

يُعد النجاح الحالي للتحويلات التشتتية (diffusion transformers) يعتمد بشكل كبير على الفضاء الكامن المُكثَّف الذي يُشكّله المُعدّل التلقائي التغيري (VAE) المُدرّب مسبقًا. ومع ذلك، فإن نموذج التدريب ثنائي المراحل هذا يُنجم حتمًا عن تراكم الأخطاء وظهور عيوب في عملية الترميز العكسي. ولحل المشكلات المذكورة أعلاه، اتجه الباحثون إلى العودة إلى فضاء البكسل، على حساب تعقيد خطوط التدفق المتسلسلة وزيادة تعقيد الرموز (tokens). على النقيض من هذه الجهود، نقترح نمذجة عملية الترميز الجزئي (patch-wise decoding) باستخدام الحقل العصبي (neural field)، ونقدّم حلًا متماسكًا بمقاييس واحدة، ومرحلة واحدة، وفعالًا، ومتسلسلًا من البداية إلى النهاية، ويُطلق عليه اسم "Pixel Neural Field Diffusion" (PixelNerd). وبفضل تمثيل الحقل العصبي الفعّال في PixelNerd، تمكّنا من تحقيق مؤشر FID قدره 2.15 على ImageNet بحجم 256×256، و2.84 على ImageNet بحجم 512×512، دون الحاجة إلى أي خط أنابيب متسلسل معقد أو استخدام VAE. كما قمنا بتوسيع إطار عمل PixelNerd لتطبيقات تحويل النص إلى صورة. وقد حقق نموذج PixelNerd-XXL/16 نتيجة تنافسية بدرجة إجمالية قدرها 0.73 على معيار GenEval، ودرجة إجمالية قدرها 80.9 على معيار DPG.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
بيكس نيرد: تشتت الحقل العصبي البكسلية | مستندات | HyperAI