HyperAIHyperAI
vor 17 Tagen

Skalierung autoregressiver Modelle für inhaltsreiche Text-zu-Bild-Generierung

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu
Skalierung autoregressiver Modelle für inhaltsreiche Text-zu-Bild-Generierung
Abstract

Wir stellen das Pathways Autoregressive Text-to-Image (Parti)-Modell vor, das hochqualitative, fotorealistische Bilder generiert und eine inhaltsreiche Synthese mit komplexen Zusammensetzungen sowie Weltwissen unterstützt. Parti behandelt die Text-zu-Bild-Generierung als ein Sequenz-zu-Sequenz-Modellierungsproblem, vergleichbar mit der maschinellen Übersetzung, wobei jedoch Sequenzen von Bildtokenen als Zieloutput – anstelle von Texttoken in einer anderen Sprache – verwendet werden. Diese Strategie ermöglicht es, nahtlos auf die umfangreiche Forschungsliteratur zu großen Sprachmodellen zurückzugreifen, die durch Skalierung von Datenmengen und Modellgrößen kontinuierlich an Leistungsfähigkeit gewonnen hat. Unser Ansatz ist einfach: Zunächst verwendet Parti einen auf Transformers basierenden Bildtokenisierer, ViT-VQGAN, um Bilder in Folgen diskreter Token zu kodieren. Zweitens erzielen wir konsequente Qualitätsverbesserungen durch die Skalierung des Encoder-Decoder-Transformer-Modells auf bis zu 20 Milliarden Parameter, wobei ein neuer State-of-the-Art-Wert für die Null-Schuss-FID-Score von 7,23 und ein fine-tunender FID-Score von 3,22 auf MS-COCO erreicht werden. Unsere detaillierte Analyse anhand von Localized Narratives sowie des neuen, umfassenden Benchmarks PartiPrompts (P2), der über 1600 englische Prompts umfasst, belegt die Wirksamkeit von Parti über eine breite Palette von Kategorien und Schwierigkeitsgraden hinweg. Zudem untersuchen und heben wir die Grenzen unseres Modells hervor, um zentrale Bereiche für zukünftige Verbesserungen klar zu definieren und zu illustrieren. Für hochauflösende Bilder besuchen Sie bitte https://parti.research.google/.

Skalierung autoregressiver Modelle für inhaltsreiche Text-zu-Bild-Generierung | Neueste Forschungsarbeiten | HyperAI