Command Palette
Search for a command to run...
GMem : Une approche modulaire pour des modèles génératifs ultraefficaces
GMem : Une approche modulaire pour des modèles génératifs ultraefficaces
Yi Tang Peng Sun Zhenglin Cheng Tao Lin
Résumé
Des études récentes indiquent que le processus de débruitage dans les modèles génératifs par diffusion profonds apprend implicitement et mémorise des informations sémantiques provenant de la distribution des données. Ces résultats suggèrent qu’obtenir une représentation plus complexe de la distribution des données nécessite des réseaux neuronaux de plus grande taille, entraînant une augmentation substantielle des exigences computationnelles, qui deviennent ainsi le principal goulot d’étranglement lors de l’entraînement et de l’inférence des modèles de diffusion. À cet effet, nous introduisons GMem : une approche modulaire pour des modèles génératifs ultra-efficaces. Notre méthode GMem déconnecte la capacité de mémoire du modèle lui-même et la réalise sous la forme d’un ensemble de mémoire séparé et immuable, qui préserve l’information sémantique essentielle contenue dans les données. Les résultats sont significatifs : GMem améliore à la fois l’efficacité de l’entraînement, celle de l’échantillonnage et la diversité de génération. Ce design réduit d’une part la dépendance du réseau vis-à-vis de la mémorisation de distributions de données complexes, améliorant ainsi à la fois l’efficacité d’entraînement et d’échantillonnage. Sur ImageNet à une résolution de 256×256, GMem atteint une accélération d’entraînement de 50× par rapport à SiT, obtenant un FID de 7,66 en moins de 28 époques (∼4 heures de temps d’entraînement), tandis que SiT nécessite 1400 époques. Sans guidance sans classificateur, GMem atteint une performance de pointe (SoTA) avec un FID de 1,53 en 160 époques, avec seulement ∼20 heures d’entraînement, surpassant ainsi LightningDiT, qui requiert 800 époques et ∼95 heures pour atteindre un FID de 2,17.