GMem : Une approche modulaire pour des modèles génératifs ultraefficaces

Des études récentes indiquent que le processus de débruitage dans les modèles génératifs par diffusion profonds apprend implicitement et mémorise des informations sémantiques provenant de la distribution des données. Ces résultats suggèrent qu’obtenir une représentation plus complexe de la distribution des données nécessite des réseaux neuronaux de plus grande taille, entraînant une augmentation substantielle des exigences computationnelles, qui deviennent ainsi le principal goulot d’étranglement lors de l’entraînement et de l’inférence des modèles de diffusion. À cet effet, nous introduisons GMem : une approche modulaire pour des modèles génératifs ultra-efficaces. Notre méthode GMem déconnecte la capacité de mémoire du modèle lui-même et la réalise sous la forme d’un ensemble de mémoire séparé et immuable, qui préserve l’information sémantique essentielle contenue dans les données. Les résultats sont significatifs : GMem améliore à la fois l’efficacité de l’entraînement, celle de l’échantillonnage et la diversité de génération. Ce design réduit d’une part la dépendance du réseau vis-à-vis de la mémorisation de distributions de données complexes, améliorant ainsi à la fois l’efficacité d’entraînement et d’échantillonnage. Sur ImageNet à une résolution de $256 \times 256$, GMem atteint une accélération d’entraînement de $50\times$ par rapport à SiT, obtenant un FID de $7,66$ en moins de $28$ époques ($\sim 4$ heures de temps d’entraînement), tandis que SiT nécessite $1400$ époques. Sans guidance sans classificateur, GMem atteint une performance de pointe (SoTA) avec un FID de $1,53$ en $160$ époques, avec seulement $\sim 20$ heures d’entraînement, surpassant ainsi LightningDiT, qui requiert $800$ époques et $\sim 95$ heures pour atteindre un FID de $2,17$.