HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Warum Diffusionsmodelle nicht memorisieren: Die Rolle der impliziten dynamischen Regularisierung beim Training

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Warum Diffusionsmodelle nicht memorisieren: Die Rolle der impliziten dynamischen Regularisierung beim Training

Abstract

Diffusionsmodelle haben bei einer Vielzahl generativer Aufgaben bemerkenswerte Erfolge erzielt. Eine zentrale Herausforderung besteht darin, die Mechanismen zu verstehen, die deren Memorisation von Trainingsdaten verhindern und eine Generalisierung ermöglichen. In dieser Arbeit untersuchen wir die Rolle der Trainingsdynamik beim Übergang von Generalisierung zur Memorisation. Durch umfangreiche Experimente und theoretische Analyse identifizieren wir zwei unterschiedliche Zeitskalen: eine frühe Phase, in der Modelle beginnen, hochwertige Samples zu generieren, und eine spätere Phase, ab der Memorisation auftritt. Entscheidend ist, dass wir feststellen, dass sich die frühe Phase linear mit der Größe des Trainingsdatensatzes vergrößert, während die spätere Phase konstant bleibt. Dadurch entsteht ein zunehmendes Zeitfenster während des Trainings, in dem Modelle effektiv generalisieren können – trotz starker Memorisation, wenn das Training darüber hinaus fortgesetzt wird. Erst wenn die frühe Phase größer wird als eine modellabhängige Schwelle, verschwindet das Überanpassungsverhalten bei unendlich langem Training. Diese Ergebnisse offenbaren eine Art impliziter dynamischer Regularisierung in den Trainingsdynamiken, die auch bei stark überparametrisierten Modellen eine Memorisation vermeiden lässt. Unsere Ergebnisse werden durch numerische Experimente mit standardisierten U-Net-Architekturen auf realistischen und synthetischen Datensätzen sowie durch eine theoretische Analyse mittels eines handhabbaren Modells mit zufälligen Merkmalen im hochdimensionalen Grenzfall unterstützt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Warum Diffusionsmodelle nicht memorisieren: Die Rolle der impliziten dynamischen Regularisierung beim Training | Forschungsarbeiten | HyperAI