HyperAIHyperAI
vor 17 Tagen

Datenextrapolation für Text-zu-Bild-Generierung auf kleinen Datensätzen

Senmao Ye, Fei Liu
Datenextrapolation für Text-zu-Bild-Generierung auf kleinen Datensätzen
Abstract

Die Text-zu-Bild-Generierung erfordert eine große Menge an Trainingsdaten, um hochwertige Bilder zu synthetisieren. Zur Erweiterung der Trainingsdaten stützen sich bisherige Methoden auf Daten-Interpolationen wie Ausschneiden, Spiegeln und Mischen, die keine neuen Informationen hinzufügen und lediglich marginale Verbesserungen erzielen. In diesem Paper stellen wir eine neue Daten-Augmentierungsmethode für die Text-zu-Bild-Generierung mittels linearer Extrapolation vor. Konkret wenden wir die lineare Extrapolation ausschließlich auf Textmerkmale an, während neue Bild-Daten über Suchmaschinen aus dem Internet abgerufen werden. Zur Gewährleistung der Zuverlässigkeit der neuen Text-Bild-Paare entwickeln wir zwei Ausreißer-Detektoren, um die abgerufenen Bilder zu filtern. Auf Basis der Extrapolation konstruieren wir Trainingsbeispiele, die das ursprüngliche Datenset um ein Vielfaches übersteigen, was zu einer signifikanten Verbesserung der Text-zu-Bild-Leistung führt. Darüber hinaus schlagen wir eine NULL-Guidance zur Verfeinerung der Score-Schätzung vor und nutzen eine rekurrente affine Transformation zur Fusion von Textinformationen. Unser Modell erreicht FID-Scores von 7,91, 9,52 und 5,00 auf den Datensätzen CUB, Oxford und COCO. Der Quellcode und die Daten werden auf GitHub verfügbar sein (https://github.com/senmaoy/RAT-Diffusion).

Datenextrapolation für Text-zu-Bild-Generierung auf kleinen Datensätzen | Neueste Forschungsarbeiten | HyperAI