GMem: Ein modulares Ansatz für ultraschnelle generative Modelle

Neuere Studien deuten darauf hin, dass der Denoisingsprozess in tiefen generativen Diffusionsmodellen semantische Informationen aus der Datenausgangsverteilung implizit lernt und speichert. Diese Erkenntnisse legen nahe, dass die Erfassung komplexerer Datenausgangsverteilungen größere neuronale Netze erfordert, was wiederum zu einer erheblichen Steigerung der Rechenanforderungen führt und diese zu einer zentralen Engstelle sowohl beim Training als auch bei der Inferenz von Diffusionsmodellen macht. Um diesem Problem entgegenzuwirken, stellen wir GMem vor: einen modularen Ansatz für ultraschnelle generative Modelle. Unser Ansatz GMem trennt die Speicherkapazität von der Modellarchitektur und implementiert sie als separaten, unveränderlichen Speicher, der die wesentlichen semantischen Informationen aus den Daten bewahrt. Die Ergebnisse sind signifikant: GMem verbessert sowohl die Trainings- als auch die Sampling-Effizienz und die Vielfalt der generierten Daten. Durch diese Architektur verringert sich einerseits die Abhängigkeit des Netzwerks von der Speicherung komplexer Datenausgangsverteilungen, was die Effizienz sowohl beim Training als auch beim Sampling erhöht. Auf ImageNet bei einer Auflösung von $256 \times 256$ erreicht GMem eine 50-fache Beschleunigung des Trainings im Vergleich zu SiT und erreicht eine FID von $7,66$ in weniger als 28 Epochen (ca. 4 Stunden Trainingszeit), während SiT 1400 Epochen benötigt. Ohne Klassifikator-freie Leitlinien erreicht GMem eine state-of-the-art (SoTA)-Leistung mit einer FID von $1,53$ in 160 Epochen und lediglich ca. 20 Stunden Training – dies übertrifft LightningDiT, das 800 Epochen und ca. 95 Stunden benötigt, um eine FID von $2,17$ zu erreichen.