vor 3 Monaten

Autoregressive Model schlägt Diffusion: Llama für skalierbare Bildgenerierung

Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan

Abstract

Wir stellen LlamaGen vor, eine neue Familie von Bildgenerationsmodellen, die das ursprüngliche „Next-Token-Prediction“-Paradigma großer Sprachmodelle auf den Bereich der visuellen Generierung übertragen. Es handelt sich um eine positive Antwort auf die Frage, ob reine autoregressive Modelle – beispielsweise Llama – ohne induktive Vorkenntnisse über visuelle Signale bei angemessener Skalierung Leistungen auf dem Stand der Technik im Bereich der Bildgenerierung erzielen können. Wir überprüfen erneut die Gestaltungsräume von Bild-Tokenisierern, die Skalierbarkeitseigenschaften von Bildgenerationsmodellen sowie die Qualität ihrer Trainingsdaten. Die Ergebnisse dieser Untersuchung umfassen: (1) Einen Bild-Tokenizer mit einem Downsampling-Faktor von 16, einer Rekonstruktionsqualität von 0,94 rFID und einer Codebook-Nutzung von 97 % auf dem ImageNet-Benchmark. (2) Eine Reihe von klassenbedingter Bildgenerationsmodelle mit Parametern zwischen 111 M und 3,1 B, die eine FID von 2,18 auf dem ImageNet-256x256-Benchmark erreichen und damit populäre Diffusionsmodelle wie LDM und DiT übertreffen. (3) Ein textbedingtes Bildgenerationsmodell mit 775 M Parametern, das in zwei Phasen auf LAION-COCO und Bildern mit hoher ästhetischer Qualität trainiert wurde, und eine konkurrenzfähige Leistung hinsichtlich visueller Qualität und Text-Alignment zeigt. (4) Wir bestätigen die Wirksamkeit von LLM-Serving-Frameworks zur Optimierung der Inferenzgeschwindigkeit von Bildgenerationsmodellen und erreichen eine Beschleunigung um 326 % bis 414 %. Alle Modelle und Quellcodes werden veröffentlicht, um die Entwicklung der Open-Source-Community im Bereich der visuellen Generierung und multimodaler Grundmodelle zu fördern.

Code-Repositories

foundationvision/llamagen

Offiziell

pytorch

In GitHub erwähnt

0606zt/panollama

pytorch

In GitHub erwähnt

Benchmarks

Benchmark	Methodik	Metriken
image-generation-on-imagenet-256x256	LlamaGen	FID: 2.18

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette