HyperAI

Résumé

Les modèles de diffusion ont connu un succès remarquable dans une large gamme de tâches génératives. Un défi majeur réside dans la compréhension des mécanismes qui empêchent leur mémoire des données d'entraînement et permettent une généralisation efficace. Dans ce travail, nous étudions le rôle des dynamiques d'entraînement dans la transition entre généralisation et mémoire. À travers des expériences étendues et une analyse théorique, nous identifions deux échelles de temps distinctes : un premier stade précoce au cours duquel les modèles commencent à générer des échantillons de haute qualité, et un stade ultérieur au-delà duquel la mémoire apparaît. De manière cruciale, nous observons que la durée du premier stade augmente linéairement avec la taille de l'ensemble d'entraînement, tandis que la durée du second reste constante. Cela crée une fenêtre croissante de temps d'entraînement durant laquelle les modèles généralisent efficacement, même si une forte mémoire se manifeste lorsque l'entraînement se prolonge au-delà de cette fenêtre. Ce n'est qu'au moment où la durée du premier stade dépasse un seuil dépendant du modèle que le surajustement disparaît à temps infini. Ces résultats révèlent une forme de régularisation dynamique implicite dans les dynamiques d'entraînement, qui permet d'éviter la mémoire même dans des régimes fortement sur-paramétrés. Nos conclusions sont corroborées par des expériences numériques réalisées sur des architectures U-Net standard, sur des jeux de données réalistes et synthétiques, ainsi que par une analyse théorique fondée sur un modèle à fonctions aléatoires tractable, étudié dans la limite de grande dimension.

Résumé

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Résumé

Construire l'IA avec l'IA

Hyper Newsletters