بيكس نيرد: تشتت الحقل العصبي البكسلية

يُعد النجاح الحالي للتحويلات التشتتية (diffusion transformers) يعتمد بشكل كبير على الفضاء الكامن المُكثَّف الذي يُشكّله المُعدّل التلقائي التغيري (VAE) المُدرّب مسبقًا. ومع ذلك، فإن نموذج التدريب ثنائي المراحل هذا يُنجم حتمًا عن تراكم الأخطاء وظهور عيوب في عملية الترميز العكسي. ولحل المشكلات المذكورة أعلاه، اتجه الباحثون إلى العودة إلى فضاء البكسل، على حساب تعقيد خطوط التدفق المتسلسلة وزيادة تعقيد الرموز (tokens). على النقيض من هذه الجهود، نقترح نمذجة عملية الترميز الجزئي (patch-wise decoding) باستخدام الحقل العصبي (neural field)، ونقدّم حلًا متماسكًا بمقاييس واحدة، ومرحلة واحدة، وفعالًا، ومتسلسلًا من البداية إلى النهاية، ويُطلق عليه اسم "Pixel Neural Field Diffusion" (PixelNerd). وبفضل تمثيل الحقل العصبي الفعّال في PixelNerd، تمكّنا من تحقيق مؤشر FID قدره 2.15 على ImageNet بحجم 256×256، و2.84 على ImageNet بحجم 512×512، دون الحاجة إلى أي خط أنابيب متسلسل معقد أو استخدام VAE. كما قمنا بتوسيع إطار عمل PixelNerd لتطبيقات تحويل النص إلى صورة. وقد حقق نموذج PixelNerd-XXL/16 نتيجة تنافسية بدرجة إجمالية قدرها 0.73 على معيار GenEval، ودرجة إجمالية قدرها 80.9 على معيار DPG.