HyperAIHyperAI
il y a 17 jours

Modèles de diffusion auto-améliorants avec des données synthétiques

Sina Alemohammad, Ahmed Imtiaz Humayun, Shruti Agarwal, John Collomosse, Richard Baraniuk
Modèles de diffusion auto-améliorants avec des données synthétiques
Résumé

Le monde de l’intelligence artificielle (IA) est confronté à une pénurie croissante de données réelles pour entraîner des modèles génératifs de plus en plus volumineux, ce qui accroît la pression pour recourir à des données synthétiques. Malheureusement, l’entraînement de nouveaux modèles génératifs à partir de données synthétiques issues de modèles précédents ou actuels engendre une boucle autophagique (auto-consommation) qui dégrade la qualité et/ou la diversité des données synthétiques, phénomène désigné sous le nom de « trouble de l’autophagie des modèles » (model autophagy disorder, MAD) ou « effondrement du modèle ». Les approches actuelles concernant l’autophagie des modèles recommandent d’éviter toute utilisation de données synthétiques dans l’entraînement afin d’éviter que le système ne dégénère en MAD. Dans cet article, nous proposons une approche différente, qui traite les données synthétiques autrement que les données réelles. Nous introduisons un nouveau concept d’entraînement pour les modèles de diffusion, appelé SIMS (Self-IMproving diffusion models with Synthetic data), qui utilise des données synthétiques auto-générées pour fournir une guidance négative pendant le processus de génération, afin de détourner le modèle du sous-espace non idéal des données synthétiques et de le recentrer vers la distribution réelle des données. Nous démontrons que SIMS est capable d’auto-amélioration : il établit de nouveaux records en termes de distance de Fréchet inception (FID) pour la génération sur CIFAR-10 et ImageNet-64, tout en obtenant des résultats compétitifs sur FFHQ-64 et ImageNet-512. De plus, à notre connaissance, SIMS est le premier algorithme préventif en IA générative pouvant être entraîné itérativement sur des données synthétiques auto-générées sans tomber dans le trouble de l’autophagie des modèles. En bonus, SIMS permet d’ajuster la distribution des données synthétiques d’un modèle de diffusion pour qu’elle corresponde à toute distribution cible souhaitée au sein d’un domaine donné, aidant ainsi à atténuer les biais et à garantir l’équité.

Modèles de diffusion auto-améliorants avec des données synthétiques | Articles de recherche récents | HyperAI