HyperAIHyperAI
منذ 17 أيام

تحسين تدريب التدفقات المستقيمة

Sangyun Lee, Zinan Lin, Giulia Fanti
تحسين تدريب التدفقات المستقيمة
الملخص

أظهرت نماذج الانتشار إمكانات كبيرة في توليد الصور والفيديوهات، لكن عينة النماذج الرائدة تتطلب تكاملًا عدديًا مكلفًا لمعادلة تفاضلية عادية (ODE) التوليدية. أحد النُهج المتبعة لمعالجة هذه المشكلة هو التدفق المصحح (rectified flows)، الذي يتعلم بشكل تكراري مسارات ODE سلسة أقل عرضة لأخطاء التقريب. ومع ذلك، لا يزال التدفق المصحح يتطلب عددًا نسبيًا كبيرًا من تقييمات الدالة (NFE). في هذه الدراسة، نقترح تقنيات محسّنة لتدريب التدفقات المصححة، مما يمكّنها من التنافس مع طرق التوليد المبني على التعلم من المعرفة (knowledge distillation) حتى في البيئة ذات عدد منخفض من تقييمات الدالة. يكمن رؤيتنا الأساسية في أن التدريب على التدفق المصحح باستخدام تكرار واحد من خوارزمية Reflow يكفي لتعلم مسارات شبه مستقيمة في الظروف الواقعية؛ وبالتالي، فإن الممارسة الحالية التي تعتمد على عدة تكرارات من خوارزمية Reflow أصبحت غير ضرورية. ونتيجة لذلك، نقترح تقنيات لتحسين التدريب في جولة واحدة للتدفقات المصححة، تشمل توزيعًا على شكل حرف U للخطوات الزمنية، ووظيفة برمترية مسبقة (premetric) من نوع LPIPS-Huber. وباستخدام هذه التقنيات، نُحسّن مؤشر FID للتدفق المصحح السابق (2-rectified flow) بنسبة تصل إلى 75% في بيئة تقييم دالة واحدة (1 NFE) على مجموعة بيانات CIFAR-10. أما على ImageNet بحجم 64×64، فإن التدفق المصحح المحسّن الذي نقترحه يتفوق على أحدث طرق التوليد المبني على التعلم من المعرفة مثل التوليد المتماسك (consistency distillation) والتوليد التدريجي (progressive distillation) في كلا البيئتين (خطوة واحدة وخطوتين)، ويُقَارِب أداء التدريب المحسّن المتماسك (iCT) من حيث مؤشر FID. يُمكن الاطلاع على الكود على الرابط: https://github.com/sangyun884/rfpp.