Re-Imagen: Retrieval-Augmented Text-to-Image Generator

Die Forschung im Bereich der Text-zu-Bild-Generierung hat erhebliche Fortschritte bei der Erzeugung vielfältiger und fotorealistischer Bilder erzielt, getrieben durch Diffusions- und autoregressive Modelle, die auf großskaligen Bild-Text-Datensätzen trainiert wurden. Obwohl state-of-the-art-Modelle hochwertige Bilder häufiger Entitäten generieren können, stoßen sie oft an ihre Grenzen, wenn es darum geht, Bilder seltener oder ungewöhnlicher Entitäten wie beispielsweise „Chortai (Hund)“ oder „Picarones (Essen)“ zu erstellen. Um dieses Problem anzugehen, stellen wir den Retrieval-augmentierten Text-zu-Bild-Generator (Re-Imagen) vor, ein generatives Modell, das durch abgerufene Informationen hochfidelitäts- und treue Bilder erzeugt, selbst für seltene oder bisher nicht gesehene Entitäten. Gegeben einen Textprompt greift Re-Imagen auf eine externe multimodale Wissensbasis zurück, um relevante (Bild, Text)-Paare zu retrieven, die als Referenzen zur Bildgenerierung dienen. Durch diesen Retrieval-Schritt wird das Modell mit Wissen über höhere Semantik und niedrigere visuelle Details der genannten Entitäten ergänzt, wodurch sich die Genauigkeit der visuellen Repräsentation dieser Entitäten signifikant verbessert. Wir trainieren Re-Imagen auf einem neu zusammengestellten Datensatz, der (Bild, Text, Retrieval)-Tripel enthält, um dem Modell beizubringen, sich sowohl auf den Textprompt als auch auf das Retrieval zu beziehen. Zudem entwickeln wir eine neue Sampling-Strategie, die die classifier-free Guidance für Text- und Retrieval-Bedingungen abwechselnd einsetzt, um eine ausgewogene Anpassung zwischen Text und Retrieval zu gewährleisten. Re-Imagen erreicht eine signifikante Verbesserung des FID-Scores sowohl auf COCO als auch auf WikiImage. Um die Fähigkeiten des Modells weiter zu evaluieren, führen wir EntityDrawBench ein, eine neue Benchmark, die die Bildgenerierung für vielfältige Entitäten – von häufig bis selten – über mehrere Objektkategorien hinweg einschließlich Hunde, Speisen, Sehenswürdigkeiten, Vögel und Charaktere bewertet. Die menschliche Evaluation auf EntityDrawBench zeigt, dass Re-Imagen die Fidelität der generierten Bilder erheblich verbessern kann, insbesondere bei weniger häufigen Entitäten.