PixelFlow: حل لتوليد الصور في مساحة البكسل

1. مقدمة البرنامج التعليمي
مشروع PixelFlow هو نموذج لتوليد الصور بالذكاء الاصطناعي أصدره فريق Adobe في جامعة هونج كونج في أبريل 2025. وهو عبارة عن سلسلة من نماذج توليد الصور التي تعمل مباشرة في مساحة البكسل الأصلية، على النقيض تمامًا من نماذج المساحة الكامنة الرئيسية. نتائج الورقة ذات الصلة هيPixelFlow: نماذج توليد مساحة البكسل باستخدام Flow".
يعمل هذا النهج على تبسيط عملية إنشاء الصورة من خلال التخلص من الحاجة إلى مشفر ذاتي متغير مدرب مسبقًا (VAE) وجعل النموذج بأكمله قابلاً للتدريب من البداية إلى النهاية. من خلال نمذجة التدفق المتتالي الفعال، يحقق PixelFlow تكلفة حسابية معقولة في مساحة البكسل. يحقق FID بقيمة 1.98 على معيار توليد الصور المشروطة فئة 256×256 ImageNet. تظهر النتائج النوعية لتحويل النص إلى صورة أن PixelFlow يعمل بشكل جيد من حيث جودة الصورة والبراعة والتحكم الدلالي. ونأمل أن يلهم هذا النموذج الجديد ويفتح فرصًا جديدة للجيل القادم من نماذج الرؤية التوليدية.
يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.
👉 يقدم هذا المشروع نموذجًا لـ:
- من الفصل إلى الصورة: يحقق FID بقيمة 1.98 على معيار توليد الصور المشروطة فئة 256×256 ImageNet.
أمثلة المشاريع

2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج
❗️نصائح هامة للاستخدام:
- فئة ImageNet-1k: يمكن للصور المولدة فقط تحديد الفئات المحددة في المربع المنسدل ولا يمكن تخصيصها.
- Dopri5 ODE: إنه حل المعادلات التفاضلية العادية بحجم الخطوة التكيفية من الدرجة الخامسة Dormand-Prince ويتم تمكينه عندما يكون هناك حاجة إلى إنشاء جودة عالية (على سبيل المثال إنشاء صور عالية الدقة).
- تحول الضوضاء: يتحكم في إزاحة الضوضاء في عملية التوليد. ستؤدي القيمة الأكبر إلى زيادة شدة الضوضاء، مما يجعل النتائج الناتجة أكثر عشوائية وتنوعًا. ستعمل القيمة الأصغر على تقليل تداخل الضوضاء، مما يجعل النتائج الناتجة أقرب إلى توزيع بيانات التدريب (أكثر تحفظًا).
- مقياس التوجيه الخالي من التصنيف: يتم استخدامه للتحكم في الدرجة التي تؤثر بها المدخلات الشرطية (مثل النص أو الصور) في النماذج التوليدية على النتائج المولدة. ستعمل قيم التوجيه الأعلى على جعل النتائج المولدة تتطابق بشكل أوثق مع شروط الإدخال، بينما ستحتفظ القيم المنخفضة بمزيد من العشوائية.
- خطوات الاستدلال العددي [المرحلة 0]: يمثل عدد تكرارات النموذج أو عدد الخطوات في عملية الاستدلال، ويمثل عدد خطوات التحسين التي يستخدمها النموذج لتوليد النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى إنتاج نتائج أكثر دقة، ولكن قد يؤدي إلى زيادة وقت الحساب. [المرحلة 0] تشير إلى الصورة المولدة. الرقم بعده زائد 1 يشير إلى رقم الفصل. هناك أربعة صور في المجموع.
- البذرة: هي بذرة الرقم العشوائي، والتي تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.
كيفية الاستخدام

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
شكرًا لمستخدم Github xxxجججج1 لإنتاج هذا البرنامج التعليمي، معلومات مرجعية للمشروع هي كما يلي:
@article{chen2025pixelflow,
title={PixelFlow: Pixel-Space Generative Models with Flow},
author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
journal={arXiv preprint arXiv:2504.07963},
year={2025}
}