HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

Diffusions-Transformers mit Repräsentations-Autoencoder

Boyang Zheng Nanye Ma Shengbang Tong Saining Xie

Diffusions-Transformers mit Repräsentations-Autoencoder

Abstract

Latente generative Modellierung, bei der ein vortrainierter Autoencoder Pixel in einen latente Raum für den Diffusionsprozess abbildet, ist zur Standardstrategie für Diffusion Transformers (DiT) geworden; der Autoencoder-Teil hat sich jedoch kaum weiterentwickelt. Die meisten DiT-Modelle setzen weiterhin auf den ursprünglichen VAE-Encoder, was mehrere Einschränkungen mit sich bringt: veraltete Architekturen, die die Strukturvereinfachung beeinträchtigen, niedrigdimensionale latente Räume, die die Informationskapazität einschränken, sowie schwache Repräsentationen, die durch eine ausschließlich auf Rekonstruktion basierende Trainingsstrategie entstehen und letztlich die Qualität der Generierung limitieren. In dieser Arbeit untersuchen wir den Einsatz von vortrainierten Repräsentations-Encodern (z. B. DINO, SigLIP, MAE) anstelle des VAE, kombiniert mit trainierten Decodern, wodurch wir sogenannte Repräsentations-Autoencoder (Representation Autoencoders, RAEs) bilden. Diese Modelle bieten sowohl hochwertige Rekonstruktionen als auch semantisch reichhaltige latente Räume und ermöglichen gleichzeitig eine skalierbare, auf Transformers basierende Architektur. Da diese latente Räume typischerweise hochdimensional sind, stellt sich die zentrale Herausforderung, Diffusion Transformers effektiv in ihnen einzusetzen. Wir analysieren die Ursachen dieser Schwierigkeiten, schlagen theoretisch motivierte Lösungen vor und bestätigen diese empirisch. Unser Ansatz erreicht eine schnellere Konvergenz ohne zusätzliche Alignmentsverluste für die Repräsentationen. Mit einer DiT-Variante, ausgestattet mit einem leichtgewichtigen, breiten DDT-Kopf, erzielen wir starke Ergebnisse bei der Bildgenerierung auf ImageNet: 1,51 FID bei 256×256 (ohne Guidance) und 1,13 sowohl bei 256×256 als auch bei 512×512 (mit Guidance). RAE bietet deutliche Vorteile und sollte künftig die neue Standardwahl für die Training von Diffusion Transformers sein.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Diffusions-Transformers mit Repräsentations-Autoencoder | Forschungsarbeiten | HyperAI