Command Palette
Search for a command to run...
Autoregressive Model schlägt Diffusion: Llama für skalierbare Bildgenerierung
Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Abstract
Wir stellen LlamaGen vor, eine neue Familie von Bildgenerationsmodellen, die das ursprüngliche „Next-Token-Prediction“-Paradigma großer Sprachmodelle auf den Bereich der visuellen Generierung übertragen. Es handelt sich um eine positive Antwort auf die Frage, ob reine autoregressive Modelle – beispielsweise Llama – ohne induktive Vorkenntnisse über visuelle Signale bei angemessener Skalierung Leistungen auf dem Stand der Technik im Bereich der Bildgenerierung erzielen können. Wir überprüfen erneut die Gestaltungsräume von Bild-Tokenisierern, die Skalierbarkeitseigenschaften von Bildgenerationsmodellen sowie die Qualität ihrer Trainingsdaten. Die Ergebnisse dieser Untersuchung umfassen: (1) Einen Bild-Tokenizer mit einem Downsampling-Faktor von 16, einer Rekonstruktionsqualität von 0,94 rFID und einer Codebook-Nutzung von 97 % auf dem ImageNet-Benchmark. (2) Eine Reihe von klassenbedingter Bildgenerationsmodelle mit Parametern zwischen 111 M und 3,1 B, die eine FID von 2,18 auf dem ImageNet-256x256-Benchmark erreichen und damit populäre Diffusionsmodelle wie LDM und DiT übertreffen. (3) Ein textbedingtes Bildgenerationsmodell mit 775 M Parametern, das in zwei Phasen auf LAION-COCO und Bildern mit hoher ästhetischer Qualität trainiert wurde, und eine konkurrenzfähige Leistung hinsichtlich visueller Qualität und Text-Alignment zeigt. (4) Wir bestätigen die Wirksamkeit von LLM-Serving-Frameworks zur Optimierung der Inferenzgeschwindigkeit von Bildgenerationsmodellen und erreichen eine Beschleunigung um 326 % bis 414 %. Alle Modelle und Quellcodes werden veröffentlicht, um die Entwicklung der Open-Source-Community im Bereich der visuellen Generierung und multimodaler Grundmodelle zu fördern.
Code-Repositories
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| image-generation-on-imagenet-256x256 | LlamaGen | FID: 2.18 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.