Command Palette
Search for a command to run...
DiffusionNFT: تعزيز التعلم التدرجي عبر التشتت المباشر مع العملية الأمامية
Kaiwen Zheng Huayu Chen Haotian Ye Haoxiang Wang Qinsheng Zhang Kai Jiang Hang Su Stefano Ermon Jun Zhu Ming-Yu Liu

الملخص
لقد كان التعلم القوي عبر الإنترنت (RL) محورياً في نماذج اللغة بعد التدريب، لكن توسيع نطاقه إلى النماذج التبادلية (diffusion models) ما زال يشكل تحدياً بسبب صعوبة حساب الاحتمالات (likelihoods) غير القابلة للحل. في الدراسات الحديثة، تم تفريغ عملية العكس التبادلية لتمكين التدريب من نوع GRPO، لكن هذه الأساليب ترث عيوبًا جوهرية، منها قيود الحلول، وعدم التوافق بين العمليات الأمامية والعكسية، بالإضافة إلى التعقيد الناتج عن دمج التوجيه بدون تصنيف (classifier-free guidance - CFG). نقدم نموذجًا جديدًا يُسمى "تَنْمِية التدريب المُدرَّب على التعلم القوي عبر الإنترنت للنماذج التبادلية" (Diffusion Negative-aware FineTuning - DiffusionNFT)، وهو نموذج جديد للتعلم القوي عبر الإنترنت يُحسّن النماذج التبادلية مباشرة عبر العملية الأمامية باستخدام تقنية تطابق التدفق (flow matching). يُميّز DiffusionNFT بين التوليدات الإيجابية والسلبية لتحديد اتجاه تحسين السياسة ضمنيًا، مما يُدمج إشارات التعلم القوي بشكل طبيعي في الهدف التدريبي المراقب. تتيح هذه الصيغة التدريب باستخدام أي حلول سوداء (black-box solvers)، وتُزيل الحاجة إلى تقدير الاحتمالات، وتحتاج فقط إلى صور نظيفة بدلًا من مسارات العينات لتحقيق تحسين السياسة. يُظهر DiffusionNFT كفاءة تصل إلى 25 مرة أعلى من FlowGRPO في المقارنات المباشرة، مع التخلص من الحاجة إلى استخدام التوجيه بدون تصنيف (CFG). على سبيل المثال، يُحسّن DiffusionNFT درجة GenEval من 0.24 إلى 0.98 خلال 1000 خطوة فقط، بينما يحقق FlowGRPO 0.95 بعد أكثر من 5000 خطوة مع استخدام إضافي للتوجيه بدون تصنيف. وباستخدام نماذج مكافأة متعددة، يُعزز DiffusionNFT بشكل كبير أداء نموذج SD3.5-Medium في جميع الاختبارات التي جُربت.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.