HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement

Résumé

Les modèles de diffusion ont connu un succès remarquable dans une large gamme de tâches génératives. Un défi majeur réside dans la compréhension des mécanismes qui empêchent leur mémoire des données d'entraînement et permettent une généralisation efficace. Dans ce travail, nous étudions le rôle des dynamiques d'entraînement dans la transition entre généralisation et mémoire. À travers des expériences étendues et une analyse théorique, nous identifions deux échelles de temps distinctes : un premier stade précoce au cours duquel les modèles commencent à générer des échantillons de haute qualité, et un stade ultérieur au-delà duquel la mémoire apparaît. De manière cruciale, nous observons que la durée du premier stade augmente linéairement avec la taille de l'ensemble d'entraînement, tandis que la durée du second reste constante. Cela crée une fenêtre croissante de temps d'entraînement durant laquelle les modèles généralisent efficacement, même si une forte mémoire se manifeste lorsque l'entraînement se prolonge au-delà de cette fenêtre. Ce n'est qu'au moment où la durée du premier stade dépasse un seuil dépendant du modèle que le surajustement disparaît à temps infini. Ces résultats révèlent une forme de régularisation dynamique implicite dans les dynamiques d'entraînement, qui permet d'éviter la mémoire même dans des régimes fortement sur-paramétrés. Nos conclusions sont corroborées par des expériences numériques réalisées sur des architectures U-Net standard, sur des jeux de données réalistes et synthétiques, ainsi que par une analyse théorique fondée sur un modèle à fonctions aléatoires tractable, étudié dans la limite de grande dimension.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Pourquoi les modèles de diffusion n'ont-ils pas de mémoire : le rôle de la régularisation dynamique implicite pendant l'entraînement | Articles de recherche | HyperAI