Fotorealistische Text-zu-Bild-Diffusionsmodelle mit tiefer Sprachverarbeitung

Wir stellen Imagen vor, ein textbasiertes Diffusionsmodell für Bildgenerierung mit einer bisher unerreichten Grad an Fotorealismus und einer tiefen Verständnisfähigkeit für Sprache. Imagen nutzt die Stärke großer Transformer-Sprachmodelle zur Textverarbeitung und baut auf der Leistungsfähigkeit von Diffusionsmodellen für die hochauflösende Bildgenerierung auf. Unser zentrales Ergebnis ist, dass allgemeine große Sprachmodelle (z. B. T5), die ausschließlich auf reinen Textkorpora vortrainiert wurden, überraschend effektiv bei der Kodierung von Text für die Bildsynthese sind: Die Vergrößerung des Sprachmodells in Imagen führt zu einer deutlich stärkeren Verbesserung der Bildqualität und der Übereinstimmung zwischen Bild und Text als die Vergrößerung des Bild-Diffusionsmodells. Imagen erreicht auf dem COCO-Datensatz einen neuen Sollwert für die FID-Score von 7,27, ohne jemals auf COCO trainiert zu haben, und menschliche Bewertungen zeigen, dass die von Imagen generierten Bilder in Bezug auf die Bild-Text-Übereinstimmung mit den Originaldaten aus COCO vergleichbar sind. Um die Leistungsfähigkeit von textbasierten Bildgenerierungsmodellen umfassender zu bewerten, führen wir DrawBench ein – einen umfassenden und anspruchsvollen Benchmark für textbasierte Bildgenerierungsmodelle. Mit DrawBench vergleichen wir Imagen mit jüngeren Ansätzen wie VQ-GAN+CLIP, Latent Diffusion Models und DALL-E 2 und stellen fest, dass menschliche Bewertende Imagen in direkten Vergleichen sowohl hinsichtlich der Bildqualität als auch der Bild-Text-Übereinstimmung gegenüber anderen Modellen bevorzugen. Weitere Informationen zu den Ergebnissen finden Sie unter https://imagen.research.google/.