LAFITE: Auf dem Weg zu sprachfreiem Training für die Text-zu-Bild-Generierung

Einer der größten Herausforderungen bei der Schulung von Text-zu-Bild-Generierungsmodellen ist die Notwendigkeit einer großen Anzahl hochwertiger Bild-Text-Paare. Während Bildbeispiele oft leicht zugänglich sind, erfordern die dazugehörigen Textbeschreibungen in der Regel sorgfältige menschliche Beschriftung, was besonders zeitaufwendig und kostspielig ist. In dieser Arbeit schlagen wir das erste Verfahren vor, mit dem Text-zu-Bild-Generierungsmodelle ohne jegliche Textdaten trainiert werden können. Unsere Methode nutzt den gut ausgerichteten multimodalen Semantikraum des leistungsstarken vortrainierten CLIP-Modells: Die Notwendigkeit der Textbedingung wird nahtlos durch die Generierung von Textmerkmalen aus Bildmerkmalen reduziert. Umfangreiche Experimente wurden durchgeführt, um die Effektivität des vorgeschlagenen Verfahrens zu veranschaulichen. Wir erzielen Stand-of-the-Art-Ergebnisse in den Standardaufgaben der Text-zu-Bild-Generierung. Von besonderer Bedeutung ist, dass das vorgeschlagene sprachfreie Modell die meisten bestehenden Modelle übertrifft, die mit vollständigen Bild-Text-Paaren trainiert wurden. Darüber hinaus kann unsere Methode zur Feinabstimmung von vortrainierten Modellen angewendet werden, was sowohl die Trainingszeit als auch die Trainingskosten für Text-zu-Bild-Generierungsmodelle reduziert. Unser vortrainiertes Modell erzielt wettbewerbsfähige Ergebnisse bei der Null-Shot-Text-zu-Bild-Generierung auf dem MS-COCO-Datensatz, wobei es nur etwa 1 % der Modellgröße und des Trainingsdatumsvolumens im Vergleich zum kürzlich vorgeschlagenen großen DALL-E-Modell hat.请注意,这里“Null-Shot”翻译为“Null-Shot”,因为这是机器学习中的一个专有名词,表示模型在没有见过特定任务训练数据的情况下进行预测的能力。同样,“MS-COCO”和“DALL-E”也被直接保留,因为它们是特定的数据集和模型名称。