HyperAIHyperAI

Command Palette

Search for a command to run...

لماذا لا تتذكّر نماذج الانتشار؟ الدور الذي تلعبه الت régularization الديناميكية الضمنية في التدريب

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Abstract

أحرزت نماذج الانتشار (Diffusion models) تقدماً ملحوظاً في مجموعة واسعة من المهام التوليدية. وتشكل التحدي الرئيسي فهم الآليات التي تمنع تذكّر النماذج لبيانات التدريب وتمكّنها من التعميم. في هذا العمل، نستعرض الدور الذي تلعبه ديناميات التدريب في الانتقال من التعميم إلى التذكّر. من خلال تجارب واسعة النطاق وتحليل نظري، نحدد مScalars زمنية متميزة: وقت مبكر تبدأ فيه النماذج في إنتاج عينات عالية الجودة، ووقت لاحق يُعدّ منعطفاً تظهر بعده ظاهرة التذكّر. ونجد بشكل حاسم أن يزداد بشكل خطي مع حجم مجموعة التدريب، في حين يظل ثابتاً. هذا يخلق نافذة متزايدة من أزمنة التدريب، حيث تُظهر النماذج تعميماً فعّالاً، حتى وإن أظهرت تذكّراً قوياً عند استمرار التدريب بعد هذه النافذة. ويُختَتم التفوق (Overfitting) فعلاً فقط عندما يصبح أكبر من حدٍّ يعتمد على النموذج، في حال التدريب اللانهائي. تُظهر هذه النتائج وجود شكل من أشكال الت régularisation الديناميكية الضمنية في ديناميات التدريب، التي تُمكّن النماذج من تجنّب التذكّر، حتى في السياقات ذات المُعامِلات الزائدة (highly overparameterized). وتدعم نتائجنا تجارب عددية باستخدام معمليات U-Net القياسية على مجموعات بيانات واقعية واصطناعية، إلى جانب تحليل نظري يعتمد على نموذج ميزات عشوائية قابل للتحليل، درس في الحدّ العالي الأبعاد.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
لماذا لا تتذكّر نماذج الانتشار؟ الدور الذي تلعبه الت régularization الديناميكية الضمنية في التدريب | Papers | HyperAI