تWINFLOW: تحقيق التوليد خطوة واحدة على النماذج الكبيرة باستخدام التدفقات ذاتية العدو
تWINFLOW: تحقيق التوليد خطوة واحدة على النماذج الكبيرة باستخدام التدفقات ذاتية العدو
Zhenglin Cheng Peng Sun Jianguo Li Tao Lin

الملخص
أظهرت التطورات الحديثة في النماذج الكبيرة متعددة الوسائط التوليدية قدرات مذهلة في التوليد متعدد الوسائط، بما في ذلك توليد الصور والفيديوهات. وتُبنى هذه النماذج عادةً على إطارات متعددة الخطوات مثل التشتت (diffusion) وتطابق التدفق (flow matching)، مما يحد بشكل جوهري من كفاءة الاستنتاج (الذي يتطلب 40 إلى 100 تقييمات دالة – NFE). وعلى الرغم من الجهود المبذولة من خلال طرق قليلة الخطوات لتسريع الاستنتاج، إلا أن الحلول الحالية تواجه قيودًا واضحة. فعلى سبيل المثال، تُعدّ الطرق القائمة على التوليد التحويلي (distillation) الشهيرة مثل التوليد التدريجي والتوافق التحويلي إما تتطلب عملية تحويل متكررة، أو تُظهر تدهورًا ملحوظًا عند عدد قليل جدًا من الخطوات (< 4-NFE). أما دمج التدريب العدواني (adversarial training) في التحويل (مثل DMD/DMD2 وSANA-Sprint) لتحسين الأداء، فيؤدي إلى عدم استقرار في التدريب، وزيادة التعقيد، وارتفاع كبير في استهلاك ذاكرة GPU بسبب النماذج المساعدة المدربة. ولحل هذه المشكلة، نقترح TwinFlow، وهي إطار بسيط وفعال لتدريب نماذج توليدية ذات خطوة واحدة، يتجاوز الحاجة إلى نماذج معلمة مسبقًا ثابتة، ويتجنب استخدام الشبكات العدوانية القياسية أثناء التدريب، مما يجعله مثاليًا لبناء نماذج كبيرة وفعالة. وفي مهام التوليد من النص إلى الصورة، حقق أسلوبنا درجة GenEval قدرها 0.83 في خطوة واحدة (1-NFE)، متفوقًا على أساليب قوية مثل SANA-Sprint (التي تعتمد على خسارة GAN) وRCGM (التي تعتمد على التوافق). وبشكل لافت، نُظهر قابلية التوسع في TwinFlow من خلال التدريب الكامل للبارامترات على Qwen-Image-20B، وتحويله إلى مولّد فعّال بخطوات قليلة. وباستخدام خطوة واحدة فقط (1-NFE)، يُطابق أسلوبنا الأداء للنموذج الأصلي الذي يستخدم 100 تقييم دالة (100-NFE) في كلا معياري GenEval وDPG-Bench، مع تقليل التكلفة الحسابية بنسبة 100 مرة، وبمعدل تدهور جودة بسيط جدًا. يمكن الاطلاع على صفحة المشروع من خلال: https://zhenglin-cheng.com/twinflow.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.