HyperAIHyperAI
منذ 13 أيام

بيكس نيرد: تشتت الحقل العصبي البكسلية

Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang
بيكس نيرد: تشتت الحقل العصبي البكسلية
الملخص

يُعد النجاح الحالي للتحويلات التشتتية (diffusion transformers) يعتمد بشكل كبير على الفضاء الكامن المُكثَّف الذي يُشكّله المُعدّل التلقائي التغيري (VAE) المُدرّب مسبقًا. ومع ذلك، فإن نموذج التدريب ثنائي المراحل هذا يُنجم حتمًا عن تراكم الأخطاء وظهور عيوب في عملية الترميز العكسي. ولحل المشكلات المذكورة أعلاه، اتجه الباحثون إلى العودة إلى فضاء البكسل، على حساب تعقيد خطوط التدفق المتسلسلة وزيادة تعقيد الرموز (tokens). على النقيض من هذه الجهود، نقترح نمذجة عملية الترميز الجزئي (patch-wise decoding) باستخدام الحقل العصبي (neural field)، ونقدّم حلًا متماسكًا بمقاييس واحدة، ومرحلة واحدة، وفعالًا، ومتسلسلًا من البداية إلى النهاية، ويُطلق عليه اسم "Pixel Neural Field Diffusion" (PixelNerd). وبفضل تمثيل الحقل العصبي الفعّال في PixelNerd، تمكّنا من تحقيق مؤشر FID قدره 2.15 على ImageNet بحجم 256×256، و2.84 على ImageNet بحجم 512×512، دون الحاجة إلى أي خط أنابيب متسلسل معقد أو استخدام VAE. كما قمنا بتوسيع إطار عمل PixelNerd لتطبيقات تحويل النص إلى صورة. وقد حقق نموذج PixelNerd-XXL/16 نتيجة تنافسية بدرجة إجمالية قدرها 0.73 على معيار GenEval، ودرجة إجمالية قدرها 80.9 على معيار DPG.

بيكس نيرد: تشتت الحقل العصبي البكسلية | أحدث الأوراق البحثية | HyperAI