HyperAIHyperAI
vor 17 Tagen

Verbesserung der Text-zu-Bild-Synthese mittels kontrastivem Lernen

Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji
Verbesserung der Text-zu-Bild-Synthese mittels kontrastivem Lernen
Abstract

Das Ziel der Text-zu-Bild-Synthese besteht darin, ein visuell realistisches Bild zu generieren, das einer gegebenen Textbeschreibung entspricht. In der Praxis weisen die von Menschen annotierten Beschreibungen für dasselbe Bild erhebliche Unterschiede in Inhalt und Wortwahl auf. Diese sprachliche Diskrepanz zwischen den Beschreibungen desselben Bildes führt dazu, dass die synthetischen Bilder von der Wahrheit abweichen. Um dieses Problem anzugehen, schlagen wir einen kontrastiven Lernansatz vor, um die Qualität und die semantische Konsistenz der synthetischen Bilder zu verbessern. Im Vortrainingsstadium nutzen wir den kontrastiven Lernansatz, um konsistente textuelle Darstellungen für die Beschreibungen desselben Bildes zu erlernen. Darüber hinaus verwenden wir im anschließenden Trainingsstadium von GANs (Generative Adversarial Networks) die kontrastive Lernmethode, um die Konsistenz zwischen den generierten Bildern aus Beschreibungen desselben Bildes zu erhöhen. Wir evaluieren unseren Ansatz an zwei etablierten Modellen der Text-zu-Bild-Synthese, AttnGAN und DM-GAN, jeweils auf den Datensätzen CUB und COCO. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Qualität der synthetischen Bilder hinsichtlich dreier Metriken – IS (Inception Score), FID (Fréchet Inception Distance) und R-Precision – effektiv verbessert. Insbesondere auf dem anspruchsvollen COCO-Datensatz steigert unser Ansatz die FID-Werte signifikant um 29,60 % gegenüber AttnGAN und um 21,96 % gegenüber DM-GAN.