HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

Autoregressive Model schlägt Diffusion: Llama für skalierbare Bildgenerierung

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Autoregressive Model schlägt Diffusion: Llama für skalierbare Bildgenerierung

Abstract

Wir stellen LlamaGen vor, eine neue Familie von Bildgenerationsmodellen, die das ursprüngliche „Next-Token-Prediction“-Paradigma großer Sprachmodelle auf den Bereich der visuellen Generierung übertragen. Es handelt sich um eine positive Antwort auf die Frage, ob reine autoregressive Modelle – beispielsweise Llama – ohne induktive Vorkenntnisse über visuelle Signale bei angemessener Skalierung Leistungen auf dem Stand der Technik im Bereich der Bildgenerierung erzielen können. Wir überprüfen erneut die Gestaltungsräume von Bild-Tokenisierern, die Skalierbarkeitseigenschaften von Bildgenerationsmodellen sowie die Qualität ihrer Trainingsdaten. Die Ergebnisse dieser Untersuchung umfassen: (1) Einen Bild-Tokenizer mit einem Downsampling-Faktor von 16, einer Rekonstruktionsqualität von 0,94 rFID und einer Codebook-Nutzung von 97 % auf dem ImageNet-Benchmark. (2) Eine Reihe von klassenbedingter Bildgenerationsmodelle mit Parametern zwischen 111 M und 3,1 B, die eine FID von 2,18 auf dem ImageNet-256x256-Benchmark erreichen und damit populäre Diffusionsmodelle wie LDM und DiT übertreffen. (3) Ein textbedingtes Bildgenerationsmodell mit 775 M Parametern, das in zwei Phasen auf LAION-COCO und Bildern mit hoher ästhetischer Qualität trainiert wurde, und eine konkurrenzfähige Leistung hinsichtlich visueller Qualität und Text-Alignment zeigt. (4) Wir bestätigen die Wirksamkeit von LLM-Serving-Frameworks zur Optimierung der Inferenzgeschwindigkeit von Bildgenerationsmodellen und erreichen eine Beschleunigung um 326 % bis 414 %. Alle Modelle und Quellcodes werden veröffentlicht, um die Entwicklung der Open-Source-Community im Bereich der visuellen Generierung und multimodaler Grundmodelle zu fördern.

Code-Repositories

foundationvision/llamagen
Offiziell
pytorch
In GitHub erwähnt
0606zt/panollama
pytorch
In GitHub erwähnt

Benchmarks

BenchmarkMethodikMetriken
image-generation-on-imagenet-256x256LlamaGen
FID: 2.18

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp