موديل التوليد الصوتي FLUX.2 من Black Forest Labs ينضم إلى Diffusers بقدرات متطورة ودعم مرن للنماذج المُعدّلة
تُعلن منصة Diffusers عن دعم النموذج الجديد FLUX.2، وهو أحدث إصدار من سلسلة نماذج توليد الصور من شركة Black Forest Labs، ويأتي كتطور جوهري عن النموذج السابق FLUX.1، وليس مجرد تحديث له. يتميز FLUX.2 ببنية معمارية جديدة تمامًا، وتدريب مسبق من الصفر، مما يجعله نموذجًا جيلًا جديدًا في مجال التوليد البصري. يُستخدم FLUX.2 لتوليد صور بناءً على نصوص أو صور موجهة، ويمكنه أيضًا معالجة حتى 10 صور كمراجع متعددة في نفس الوقت، مما يفتح آفاقًا جديدة للتوليد الموجه بالصور. من أبرز التغييرات في البنية: استخدام نص encoder واحد فقط، وهو Mistral Small 3.1، بدلًا من اثنين كما في FLUX.1، ما يبسط عملية حساب تضمينات النص. كما تم تقليل عدد الطبقات الثنائية (double-stream) وزيادة الطبقات المزدوجة (single-stream) بشكل كبير، مع تقليل نسبة الـ bias في الطبقات، ودمج مخرجات الـ QKV مع مدخلات الـ FF، ما يُحسّن الكفاءة. تتطلب الإشارة العادية لـ FLUX.2 أكثر من 80GB من VRAM، ما يجعلها غير ممكنة على معظم الأجهزة. لكن من خلال تقنيات تقليل الاستهلاك، أصبح من الممكن تشغيله على أجهزة محدودة الموارد. تشمل هذه الحلول: التحميل بـ 4-bit باستخدام bitsandbytes (ممكن على GPU بسعة 24GB)، أو استخدام نص encoder مُستضاف في السحابة (Inference Endpoint) مع تحميل النموذج المحلي بـ NF4، ما يسمح بتشغيله على GPU بسعة 18GB. كما يدعم نموذج FLUX.2 تقنية group offloading، التي تسمح بتشغيله على GPU بسعة 8GB مع 32GB من الذاكرة العشوائية. يُمكن أيضًا تدريب نماذج مخصصة باستخدام تقنية LoRA، رغم التعقيد العالي بسبب الحجم الكبير للنموذج. تم تطوير حلول لتقليل الاستهلاك الذاكرة، مثل استخدام encoder نصي مُستضاف، وتخزين الـ latents مسبقًا، وتمكين التدريب بـ FP8، أو استخدام QLoRA مع 4-bit. تُقدّم مكتبة Diffusers نماذج تدريب جاهزة لحالات مثل DreamBooth، مع دعم لواجهات مثل WandB للتتبع. في اختبارات التوليد، يظهر FLUX.2 كفاءة عالية في توليد صور واقعية وغنية بالتفاصيل، سواء باستخدام نصوص أو صور مرجعية. كما أظهرت النماذج المُدرّبة عبر LoRA نتائج مميزة، مثل توليد بطاقات تاروت بأسلوب فني مميز، مع الحفاظ على الجودة والتماسك البصري. باختصار، FLUX.2 يُعدّ خطوة كبيرة في تطوير نماذج توليد الصور، ويُقدّم حلولًا متعددة لتشغيله على مختلف الأجهزة، مما يعزز إمكانية الوصول إلى تقنيات التوليد المتقدمة، سواء للباحثين أو المطورين.
