Command Palette
Search for a command to run...
Diffusions-Transformers mit Repräsentations-Autoencoder
Boyang Zheng Nanye Ma Shengbang Tong Saining Xie

Abstract
Latente generative Modellierung, bei der ein vortrainierter Autoencoder Pixel in einen latente Raum für den Diffusionsprozess abbildet, ist zur Standardstrategie für Diffusion Transformers (DiT) geworden; der Autoencoder-Teil hat sich jedoch kaum weiterentwickelt. Die meisten DiT-Modelle setzen weiterhin auf den ursprünglichen VAE-Encoder, was mehrere Einschränkungen mit sich bringt: veraltete Architekturen, die die Strukturvereinfachung beeinträchtigen, niedrigdimensionale latente Räume, die die Informationskapazität einschränken, sowie schwache Repräsentationen, die durch eine ausschließlich auf Rekonstruktion basierende Trainingsstrategie entstehen und letztlich die Qualität der Generierung limitieren. In dieser Arbeit untersuchen wir den Einsatz von vortrainierten Repräsentations-Encodern (z. B. DINO, SigLIP, MAE) anstelle des VAE, kombiniert mit trainierten Decodern, wodurch wir sogenannte Repräsentations-Autoencoder (Representation Autoencoders, RAEs) bilden. Diese Modelle bieten sowohl hochwertige Rekonstruktionen als auch semantisch reichhaltige latente Räume und ermöglichen gleichzeitig eine skalierbare, auf Transformers basierende Architektur. Da diese latente Räume typischerweise hochdimensional sind, stellt sich die zentrale Herausforderung, Diffusion Transformers effektiv in ihnen einzusetzen. Wir analysieren die Ursachen dieser Schwierigkeiten, schlagen theoretisch motivierte Lösungen vor und bestätigen diese empirisch. Unser Ansatz erreicht eine schnellere Konvergenz ohne zusätzliche Alignmentsverluste für die Repräsentationen. Mit einer DiT-Variante, ausgestattet mit einem leichtgewichtigen, breiten DDT-Kopf, erzielen wir starke Ergebnisse bei der Bildgenerierung auf ImageNet: 1,51 FID bei 256×256 (ohne Guidance) und 1,13 sowohl bei 256×256 als auch bei 512×512 (mit Guidance). RAE bietet deutliche Vorteile und sollte künftig die neue Standardwahl für die Training von Diffusion Transformers sein.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.